人工特征工程

人工特征工程主要包含了数据预处理、特征构造、抽取与选择等。
数据预处理:1、识别处理脏数据,包括
1.1错误值识别与处理
数值错误、格式错误、类型错误等
处理方法,修正或删除

1.2异常值处理、
±3个标准差以为的离群值。
处理方法:视为空值、盖帽法、变量转换如对数转换,标准化等。
1.3缺失值处理等。
缺失不多的填补中位数、缺失较多的可以哑变量转换为有或无的字段。缺失低于20%的可以标记为“缺失”。同时可以生成新字段标记哪些是缺失的,哪些不是。

二值化相当于符号函数sgn
离散化,将连续变量转换为离散变量即分箱,可人工经验分、可等宽、可等分。
分类变量对于需要数字入模的模型可以进行哑变量转换。
标准化:极差标准化 -min/(max-min) 或-mean/std
规范化:就是对行来说

特征构造一般要根据业务需要如:收入-成本构造利润、收入/人数构造人均、总收入/月份得月均等。

特征抽取:降维、因子分析。

特征选择:1、过滤法对每个特征进行测试去掉解释性较差的变量。
2、包装法用模型的变量选择功能来进行变量筛选。
3、集成法由模型本身的变量排序、权重调节功能来选择变量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值