一、学习知识点概括
特征工程是建模之前最重要的步骤,主要包括:异常值处理,缺失值处理,特征归一化/标准化,特征构造,特征筛选,降维
二、学习内容
1.异常值处理:
箱线图,3-sigma,box-cox处理有偏分布,长尾截断
2.缺失值处理:
不处理(针对树模型),删除(缺失太多),填充法,分箱法
3.数据分桶,独热编码:
针对数值型数据分桶,针对无大小关系的类别型数据进行独热编码
4.特征构造:
时间特征,地理特征(分箱),各种特征组合等等
5.特征筛选
过滤法:分类问题通常用卡方检验,回归问题用相关性分析,f检验等
包装法:用评估器来评估所有的特征子集,从而筛选出最优的特征子集
嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。
三、学习问题与解答
测试集和训练集一同进行特征选择是否合适?
四、学习思考与总结
特征工程繁琐复杂,且需要背景知识,因此应勤加练习多多总结。
1202

被折叠的 条评论
为什么被折叠?



