1.EDA
2.缺失值处理
如果用树模型的话,缺失值也可以不处理,因为会把缺失值也当成一个待定取值。因为CART树就是一颗二叉树,无非就是左右两种取值可能。因此分别向左和向右导一下计算各自的信息增益,然后选择增益更大的那个方向。
3.数值转换
- 归一化
数据量纲不一致时,送入到神经网络当中各个权重就会产生很大的偏置。因此一定需要做归一化的。**如果是送到决策树模型当中的话,是不需要做归一化,因为是一个特征一个特征来进行处理的。**与其他特征不会产生关联。
- 对数转换
对于标签分布的偏度大于0.75时,就需要对标签进行对数转换(注意是标签,不是特征,并且决策树还是不需要处理)
对于偏度数据-数值转换
特征组合(推荐系统常用到)
这是一种相当于增加特征的方法,特征升维后进行筛选,选出更有用的一些特征出来。
预处理
- 对于树模型,就不用在意对于字符特征的处理。就比如对于Color这个特征,就可以分为“red”和“not red”这两个集合中。
- 对于深度学习模型,就不能够处理这些特征,需要进行独热编码或者是embedding的方式来完成。
- 树模型可解释的降维:可以根据得到feature importance来得到选取一些重要的特征。