机器学习：归一化

ma_no_lo

于 2024-04-22 19:51:48 发布

阅读量513

点赞数 8

文章标签：算法机器学习人工智能 python

本文链接：https://blog.csdn.net/ma_no_lo/article/details/138087745

版权

归一化的目的

首先，我们假设

$y = \theta 1x1 + \theta 2x2$

按照常理来说，我们可以想象θ1x1与θ2x2对y的贡献应该是一样大的，即θ1x1=θ2x2，但如果下x1<<x2的情况出现，那么θ'1>>θ'2。

在梯度下降时，最初的θ1与θ2是通过正态分布随机出来的，所以两者的大小是相差不大的，但是最终的θ'1和θ'2却是相差巨大的。

我们设

$\left | D1 \right | = \left | \theta {1-\theta 1}' \right |$

$\left | D2 \right | = \left | \theta {2-\theta 2}' \right |$

那么会有|D1|>>|D2|。又因为x1<<x2，我们根据梯度公式 $gj = (h\theta (x)-y)*Xj$

可以得到g1 << g2。参数的调整公式为

$\theta1(t+1) = \theta 1(t) - \eta g1$

$\theta2(t+1) = \theta 2(t) - \eta g2$

$g1 << g2$

所以θ1的调整程度远小于θ2的调整程度。

综上所述，θ1的调整速率小于θ2，但θ1的改变量却远大于θ2，所以θ1只能增加它的轮次来满足条件，否则就会矛盾。而这种等待会耗费时间，这是我们不愿看见的，所以为了解决这个矛盾，归一化应运而生。

结论：归一化的目的是使得最终梯度下降的时候可以不同维度θ参数可以在接近的调整幅度上。

同时，归一化可以去量纲化，这可能会提高一些分类器的精度，例如KNN算法。

归一化分类

最大值最小值归一化

$x{}'(i,j) = \frac{x(i,j) - min(x(j))}{max(x(j))-min(x(j))}$

min(x(i,j))是对应X矩阵第j列特征值的最小值，max(x(j))是对应X $\sigma = \frac{\sqrt{\sum_{i=1}^{k}fi(xi-\mu )^{2}}}{n}$ 阵第j列特征值的最大值

缺点：易受离群值（噪声）的干扰。

标准归一化

基本概念

$Xnew(i,j) = \frac{X(i,j)-Xmean(j)}{Standard Deviation(j)}$

均值Xmean指的是第j列的均值，而不是所有数据的均值。同样地，标准差也是第j列的标准差。

其中μ为所有样本的均值，σ为所有样本数据的标准差，经过处理的数据符合正态分布。

$\mu =\frac{\sum_{i=1}^{k}fixi}{n}$ 其中，fi是样本权重，这里设置为1。

$\sigma = \frac{\sqrt{\sum_{i=1}^{k}fi(xi)}}{n}$

优势

$Xnew(i,j) = \frac{X(i,j)-Xmean(j)}{Standard Deviation(j)}$

我们观察这个公式，可以发现，原始数据被减去了平均值，这是为什么呢？

我们观察梯度下降公式：

$\begin{pmatrix} W0(t+1)\\W1(t+1) \\ W2(t+1) \end{pmatrix} = \begin{pmatrix} W0(t)\\W1(t) \\ W2(t) \end{pmatrix}+\alpha A\begin{pmatrix} 1\\x1 \\ x2 \end{pmatrix}$

$Wj(t+1) =Wj(t) - \eta (h\theta (x)-y)*Xj$

如果Xj >= 0，那么不管如何调整，参数的调整方向都是一致的，而减去平均值可以让部分Xj小于0而让参数变化方向不一致而产生更好的结果。

不易受噪声干扰也是它的一大优势。

代码部分

from sklearn.preprocessing import StandardScaler
import numpy as np
data = np.array([1,2,3,7,7,5,5])
data = data.reshape((-1,1))
scaler = StandardScaler()
scaler.fit(data)
print(scaler.mean_)#均值
print(scaler.var_)#方差
data_new = scaler.transform(data)
print(data_new)#归一化后的矩阵
scaler.fit(data_new)
print(scaler.var_)#计算归一化后的方差 == 1
print(scaler.mean_)#计算归一化后的均值 == 0