什么是特征工程
特征:从数据中抽取出来对结果预测有用的信息。那么,现在有很多的数据,并不是每一个数据都有用,需要抽取。
特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。
数据采集
采集那些对预测结果有帮助的信息。能影响结果的,和结果有关联的,有表面的也有内部的,需要去辨别。
数据清洗
去掉脏数据。这个过程很花时间,但是能帮助你对业务的理解变得透彻。
有哪些角度去看呢?关键是合不合理,reasonable。包括,单维度考量,组合或者统计属性判定,统计方法,补齐可对应的缺省值。
数据采样:
- 分类问题中,正负样本不均衡问题,大部分模型对正负样本不均衡敏感,因为它损失函数是对loss求和,如果不均衡,肯定倾向于更多的那一类。需要随机采样和分层采样。分层采样:先将总体的单位按某种特征分为若干次级总体(层),然后再从每一层内进行单纯随机抽样,组成一个样本。
- 对于正负样本不均衡问题,若正样本远大于负样本,量很大,对正样本做下采样;若量不大,就要采集更多的数据;过采样,oversampleing(过拟合风险,需要处理数据);修改损失函数。
常见的特征工程
针对数据的类型,有不同的处理方法。
数值型
幅度调整,归一化
- 为什么进行调整?每个column(特征)的数值表达的意思不同ÿ