机器学习第三周

qq_27540235

于 2019-11-24 22:34:29 发布

阅读量158

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_27540235/article/details/103230252

版权

数据预处理之数据无量纲化

在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如1cm 与 0.1kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结，试图指出他们的适用场景，并给出在Python中的相应调用方式。正文中每列代表一个属性/特征，每行表示一个/条样本。

min-max归一化

该方法是对原始数据进行线性变换，将其映射到[0,1]之间,该方法也被称为离差标准化(但是请注意，网上更多人喜欢把z-score称为标准化方法，把min-max称为归一化方法，然后在此基础上，强行给标准化(z-score)与归一化(min-max)划条界线，以显示二者之间的相异性。该方法还有两点好处：
1. 如果某属性/特征的方差很小，如身高：np.array([[1.70],[1.71],[1.72],[1.70],[1.73]])，实际5条数据在身高这个特征上是有差异的，但是却很微弱，这样不利于模型的学习，进行min-max归一化后为：array([[ 0. ], [ 0.33333333], [ 0.66666667], [ 0. ], [ 1. ]])，相当于放大了差异；
2. 维持稀疏矩阵中为0的条目。
  使用方法如下：
  from sklearn.preprocessing import MinMaxScaler
  x = np.array([[1,-1,2],[2,0,0],[0,1,-1]])
  x1 = MinMaxScale

最低0.47元/天解锁文章

qq_27540235

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习第三周

数据预处理之数据无量纲化在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如1cm 与 0.1kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结，试图指出他们的适用场景，并给出在Python中的相应调用方式。正文中每列代表一个属性/特征，每行表示一个/条样本。...
复制链接

扫一扫