作者:Shay Gellerd
编译:ronghuaiyang
导读
不要再用sklearn中的StandarScaler作为默认的特征缩放方法了,别的方法可以给你7%的准确率提升!
![47dba7b630e640a74bdc564bb36886b9.png](https://img-blog.csdnimg.cn/img_convert/47dba7b630e640a74bdc564bb36886b9.png)
每个搞机器学习的人都知道特征尺度是一个重要的问题。参考之前的文章。
讨论最多的两种缩放方法是归一化和标准化。归一化通常意味着将值重新划分为[0,1]的范围。标准化通常意味着缩放数据的均值为0,标准差为1(单位方差)。
在这个博客中,我做了一些实验,希望能够回答以下问题:
- 我们应该在所有情况下都做缩放吗?
- 有没有一种最好的缩放技术?
- 不同的缩放技术如何影响不同的分类器?
- 我们是否应该将缩放技术作为模型的一个重要超参数?
我将分析在多个实验设置中对特征应用不同缩放方法的实证结果。
0. 为什么么要讨论两者的区别?
首先,我试图理解归一化和标准化之间的区别。
因此,我遇到了Sebastian Raschka写的这个优秀的blog:https://sebastianraschka.com/Article