1. 分析数据是否有缺失值,是否有噪声。
2. 对不同类型的数值特征进行处理。
(1)对于类别型特征要进行独热编码。
注: 独热编码将一维类别特征改为K维类别特征,其中k为该类别特征的类别总数,只有其中为1,其余为0。
(2)对于数值特征,要将其去量纲化,即归一化数值范围,变为统一的单位。
3. 分析样本数据是否均衡。
对于不均衡的样本分布,要通过一些方法设法使其变得均衡化。
4. 处理特征数据中存在的缺失值。
如果缺失值是随机分布的,对最后的训练结果没有影响,则用中值取代。(具体实例可参见机器学习第二章所讲的内容)
数据分析:
4. 查看数据是否有大量缺失值。
5. 查看数据的规模。
6. 查看数据特征对应的取值范围以及分布。
7. 查看数据特征和标签值之间的关系。(具体实例可参见机器学习第二章所讲的内容)
注:
- 对同样的训练样本数据采用不同的特征处理方法,最终训练模型的分数差距很大。
如上图所示,原始数据最终的分数为0.6668,log特征编码的分数为0.6731,tfidf特征编码的分数为0.6331 原始特征+tfidf的分数为0.5981。
所以,需要根据数据类型,采用不同的特征处理方式,最终得到的分数也会差异很大,特征处理是提升分数的一种有效手段。