人工特征工程主要包含了数据预处理、特征构造、抽取与选择等。
数据预处理:1、识别处理脏数据,包括
1.1错误值识别与处理
数值错误、格式错误、类型错误等
处理方法,修正或删除
1.2异常值处理、
±3个标准差以为的离群值。
处理方法:视为空值、盖帽法、变量转换如对数转换,标准化等。
1.3缺失值处理等。
缺失不多的填补中位数、缺失较多的可以哑变量转换为有或无的字段。缺失低于20%的可以标记为“缺失”。同时可以生成新字段标记哪些是缺失的,哪些不是。
二值化相当于符号函数sgn
离散化,将连续变量转换为离散变量即分箱,可人工经验分、可等宽、可等分。
分类变量对于需要数字入模的模型可以进行哑变量转换。
标准化:极差标准化 -min/(max-min) 或-mean/std
规范化:就是对行来说
特征构造一般要根据业务需要如:收入-成本构造利润、收入/人数构造人均、总收入/月份得月均等。
特征抽取:降维、因子分析。
特征选择:1、过滤法对每个特征进行测试去掉解释性较差的变量。
2、包装法用模型的变量选择功能来进行变量筛选。
3、集成法由模型本身的变量排序、权重调节功能来选择变量。