机器学习实践——数据预处理总结

最新推荐文章于 2024-06-11 10:58:03 发布

nickzzzhu

最新推荐文章于 2024-06-11 10:58:03 发布

阅读量2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/nickzzzhu/article/details/80470960

版权

对coursera How to Win a Data Science Competition: Learn from Top Kagglers 的总结：

1，numerical features

1）树结构的模型对数值变量的scale不敏感，线性模型，KNN和神经网络对scale敏感

2）regularization对feature的效果受到数值范围的影响

3）scale的方法：MinMaxScale, StandardScaler.

4）对于某些模型（如KNN）由于模型效果受数值范围的影响，也可以操纵feature的scale，给我们认为重要的feature更大的数值

5）outlier会严重影响线性模型（尤其是线性回归），可以选择限制最大最小值为整个分布的1%，99%；也可以对data进行rank（对train data rank时需要保存此rank中数值和rank的对应关系，并对test data做相同的rank；或者先对整个数据集rank，再分train/test data）

6）其他一些压缩数据区间使得数值更接近均值的办法：log、square

2，categorial and ordinal features

1）ordina feature和categorial feature的不同在于前者是有特定顺序的，它和numerical的不同在于前者的两个级别