机器学习--归一化

归一化技术详解

最新推荐文章于 2025-01-15 21:17:23 发布

小亚文

最新推荐文章于 2025-01-15 21:17:23 发布

阅读量751

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

19 篇文章

订阅专栏

本文详细介绍了归一化的概念及作用，并探讨了多种归一化方法，如线性函数归一化、欧式距离标准化和非线性归一化等。通过实例展示了如何实现这些方法。

归一化是一种简单的计算方式，即将有量纲的表达式，经过变换，转换为无量纲的表达式，称为标量。归一化是机器学习中的一项基础工作。
归一化有两种方式，一种是把数变为（0,1）之间的小数，一种是把有量纲表达式变为无量纲表达式。

归一化的作用：不仅能够提高求解速度，还可能提高计算精度。
比如：计算样本距离时，如果特征向量取值范围相差很大，如果不进行归一化处理，则值范围更大的特征向量对距离的影响更大，实际情况是，取值范围更小的特征向量对距离影响更大，这样的话，精度就会收到影响

从集合的角度可以做维度的归一，即抽象化归一。还有一种是向量的归一化。
维度的归一化方法一般包含:
1.线性函数归一化(Min-Max scaling)
线性函数将原始数据线性化的方法转换到[0 1]的范围，
Xnorm = (X-Xmax)/(Xmax-Xmin)
Xnorm为归一化后的数据，X为原始数据，Xmax、Xmin分别为原始数据集的最大值和最小值。
2.欧式距离标准化(用的比较多）
标准欧式距离的思路：既然数据各维分量的分布不一样，那么先将各个分量都“标准化”到均值、方差等。
标准化后的值=（标准化前的值-分量的均值）/分量的标准差
3、非线性归一化（Nonlinear Scaling）
包括对数log，指数e，正切等。
应用场景：数据分化比较大，有些很大，有些很小，可能用此方法将数值映射到一个比较小的范围进行处理。log(V，2),log(V,10).

个人认为：机器学习中一般做维度的归一化。由于样本的数量一般比较多，做向量的归一化处理过程与样本的数据有关系，样本太大，归一化过程应该也比较长。

mat=mat([[5000,25550],[3200,25550],[0.25,15],[0.3,10]])
print mat

[m,n]=shape(mat)
for i in xrange(n): #维度的归一化
    mat[:,i]=(mat[:,i]-mean(mat[:,i]))/std(mat[:,i])
print mat

#行向量归一化
def cal2NF(X):
    return linalg.norm(X)

for i in xrange(m):
    two_NF = cal2NF(mat[i,:])
    for j in xrange(n):
        mat[i,j]=mat[i,j]/two_NF

print mat

#结果
[[  5.00000000e+03   2.55500000e+04]
 [  3.20000000e+03   2.55500000e+04]
 [  2.50000000e-01   1.50000000e+01]
 [  3.00000000e-01   1.00000000e+01]]

[[ 1.3743447   0.99999999]
 [ 0.5357224   0.99999999]
 [-0.9550452  -0.9998042 ]
 [-0.9550219  -1.00019578]]

[[ 0.80860269  0.58835508]
 [ 0.47222698  0.88147699]
 [-0.69073555 -0.72310746]
 [-0.6905853  -0.72325096]]