对coursera How to Win a Data Science Competition: Learn from Top Kagglers 的总结:
1,numerical features
1)树结构的模型对数值变量的scale不敏感,线性模型,KNN和神经网络对scale敏感
2)regularization对feature的效果受到数值范围的影响
3)scale的方法:MinMaxScale, StandardScaler.
4)对于某些模型(如KNN)由于模型效果受数值范围的影响,也可以操纵feature的scale,给我们认为重要的feature更大的数值
5)outlier会严重影响线性模型(尤其是线性回归),可以选择限制最大最小值为整个分布的1%,99%;也可以对data进行rank(对train data rank时需要保存此rank中数值和rank的对应关系,并对test data做相同的rank;或者先对整个数据集rank,再分train/test data)
6)其他一些压缩数据区间使得数值更接近均值的办法:log、square
2,categorial and ordinal features
1)ordina feature和categorial feature的不同在于前者是有特定顺序的,它和numerical的不同在于前者的两个级别