5.8 正则化和数据标准化

最新推荐文章于 2024-07-01 14:20:03 发布

jhshanvip

最新推荐文章于 2024-07-01 14:20:03 发布

阅读量461

点赞数

分类专栏：＃线性代数文章标签：线性代数矩阵

本文链接：https://blog.csdn.net/jhshanvip/article/details/105896962

版权

＃线性代数专栏收录该内容

74 篇文章 111 订阅

订阅专栏

5.8 正则化和数据标准化

方程 $A\mathbf{x}=\mathbf{b}$ 矩阵 $A$ 列满秩时才有最小二乘解。矩阵 $A$ 列满秩，即矩阵列向量组是无关组，根据无关组性质，即不存在非零向量 $\mathbf{v}$ 使 $A\mathbf{v}=\mathbf{0}$ 成立。矩阵 $A$ 向量组极其接近相关时，则存在非零单位向量 $\mathbf{v},\mathbf{u}$ 使 $A\mathbf{v}=\sigma\mathbf{u}$ 成立，且 $\sigma \to 0$ ，当 $\sigma = 0$ 时，则矩阵 $A$ 向量组相关，所以相关组可以认为是无关组的极限情况。

矩阵 $A$ 向量组极其接近相关时，假设 $\mathbf{\hat{x}}$ 是方程 $A\mathbf{x}=\mathbf{b}$ 最优近似解，由于测量误差，向量 $\mathbf{b}$ 产生误差 $\kappa\mathbf{b}^\delta$ ，向量 $\mathbf{b}^\delta$ 为单位向量， $\kappa$ 为误差大小；相应的近似解会产生偏差 $\lambda \mathbf{x}^\delta$ ，向量 $\mathbf{x}^\delta$ 为单位向量， $\lambda$ 为偏差大小。
$A(\mathbf{\hat{x}}+\lambda \mathbf{x}^\delta) = \mathbf{b}+\kappa\mathbf{b}^\delta \\ \because A(\mathbf{\hat{x}}) = \mathbf{b} \therefore A(\lambda \mathbf{x}^\delta) = \kappa\mathbf{b}^\delta$

当测量误差向量 $\mathbf{b}^\delta$ 和向量 $\mathbf{u}$ 相等时，则

$\because A\mathbf{v}=\sigma\mathbf{u}=\sigma\mathbf{b}^\delta\\ \therefore A(\lambda \mathbf{x}^\delta) = \kappa\mathbf{b}^\delta= \kappa A\mathbf{v}/\sigma\\ \therefore A(\lambda \mathbf{x}^\delta-\kappa\mathbf{v}/\sigma)=\mathbf{0}\\ \therefore \lambda \mathbf{x}^\delta=\frac{\kappa}{\sigma}\mathbf{v}\\ \therefore \lambda =\frac{\kappa}{\sigma} \quad \mathbf{x}^\delta=\mathbf{v}$

这表明最优解偏差大小 $\lambda$ 是误差 $\kappa$ 的 $\frac{1}{\sigma}$ 倍，当 $\sigma \to 0$ 时，最优解偏差无穷大。这说明当矩阵 $A$ 向量组极其接近相关时，微小的测量误差有可能会导致最优解向量极大的变动。按常识，我们希望微小的测量误差只会引起最优解向量微小的变动，这样的方程是适定的。矩阵 $A$ 向量组极其接近相关时，方程是病态的，最优解极其不稳定，只要稍微有点测量误差，最优解可能变动很大，变动程度和 $\sigma$ 成反比。方程病态时，本质上是最优解 $\mathbf{\hat{x}}$ 与 $\mathbf{b}$ 不连续，即 $\mathbf{b}$ 小变动会引起 $\mathbf{\hat{x}}$ 突变。

矩阵 $A$ 向量组极其接近相关，说明向量组中必然存在某个向量几乎能被其它向量表示，这个向量位于其它向量张成的子空间内。这个表示系数就是向量 $\mathbf{v}$ ，向量 $\sigma\mathbf{u}$ 就是这个向量被其它向量表示时剩下的向量。

需要指出的是，实际中测量误差向量 $\mathbf{b}^\delta$ 一般不等于向量 $\mathbf{u}$ ，但在 $\mathbf{u}$ 有投影即分量，这个误差分量会引起最优解的变动。可惜的是，计算矩阵的 $\sigma$ 和向量 $\mathbf{v},\mathbf{u}$ 比较困难，和矩阵的奇异值分解有关。所以要判断一个方程是否病态，计算量很大，而且 $\sigma$ 具体小于多少是病态，比较模糊，比如可以是 $0.01$ 或 $0.001$ ，没有定论。

在机器学习中，数据的微小变动引起权重的巨大变动，称为过拟合。过拟合与数据本身的结构有关，如果过拟合发生，会使系统性能下降，必须避免过拟合发生。

正则化

避免过拟合就是希望最优解不会随误差而大幅变动，希望解稳定。那怎么避免呢？最小二乘法是使残差平方和 $min_\mathbf{x} \| \mathbf{b}-A\mathbf{x} \|^2$ 最小，对解向量 $\mathbf{x}$ 没有约束，所以如果优化目标变为 $min_\mathbf{x} \| \mathbf{b}-A\mathbf{x} \|^2 + \lambda \| \mathbf{x} \|^2$ 且 $\lambda > 0$ ，对解向量 $\mathbf{x}$ 施加约束，则解就会变得更稳定。我们称优化目标中的 $\lambda \| \mathbf{x} \|^2$ 为正则项， $\lambda$ 为正则系数，这个技术称为正则化。正则化技术就是使本来解不稳定变得稳定。我们称 $\| \mathbf{b}-A\mathbf{x} \|^2$ 为经验风险（即与测量数据相关的风险）， $\lambda \| \mathbf{x} \|^2$ 为结构风险（与解相关风险）。如果希望经验风险小，即 $A\mathbf{x}$ 接近向量 $\mathbf{b}$ ，则会导致解不稳定，结构风险就会大，称为过拟合；如果希望结构风险小，即 $\| \mathbf{x} \|^2$ 小，这相当于对 $\mathbf{x}$ 施加约束，则必然会导致经验风险变大。当经验风险过大时，称为欠拟合， $A\mathbf{x}$ 不能很好的表示 $\mathbf{b}$ ，这也是需要避免的。所以需要平衡这两个风险，既要避免过拟合，也要避免欠拟合，这可通过调整 $\lambda$ 来实现。 $\lambda=0$ 时经验风险最小，结构风险最大，处于完全过拟合；另一个极端， $\lambda \to +\infty$ 时，会使 $\| \mathbf{\hat{x}_\lambda} \| \to 0$ ，此时结构风险最小，经验风险最大，处于完全欠拟合。应该存在最优 $\lambda$ ，使两个风险完美平衡，很可惜的是，没有好办法找到最优 $\lambda$ 。

满足 $min_\mathbf{x} (\| \mathbf{b}-A\mathbf{x} \|^2 + \lambda \| \mathbf{x} \|^2$ 的最优近似解是什么？优化目标是关于 $\mathbf{x}$ 的函数，要取极值，则导数为零。根据矩阵导数运算规则可得最优近似解为

$\mathbf{\hat{x}_\lambda}=(A^TA+\lambda E)^{-1}A^T\mathbf{b}$

对矩阵 $S=A^TA+\lambda E,\lambda > 0$ 求逆，可以证明对任意矩阵 $A$ ，不需要是列满秩，矩阵 $S$ 均可逆。证明如下：如果 $S$ 不可逆，则存在单位向量 $\mathbf{v}$ 使 $S\mathbf{v} = \mathbf{0}$ 成立，则 $\mathbf{v}^TS\mathbf{v} = 0$ ，又 $\mathbf{v}^TS\mathbf{v} = \mathbf{v}^T(A^TA+\lambda E)\mathbf{v} = \mathbf{v}^T(A^TA)\mathbf{v} + \mathbf{v}^T(\lambda E)\mathbf{v} = \|A\mathbf{v}\|^2 + \lambda \|\mathbf{v}\|^2 \ge \lambda \|\mathbf{v}\|^2 ＝ \lambda > 0$ ，矛盾。 $\lambda$ 越大，矩阵 $S$ 越可逆，方程越远离病态。

方程 $A\mathbf{x} = \mathbf{b}$ 或唯一解，或无解或无穷多解，有解表示解能使经验风险为 $0$ ，无解表示经验风险不可能为 $0$ 。我们通过优化目标 $min_\mathbf{x} (\| \mathbf{b}-A\mathbf{x} \|^2 + \lambda \| \mathbf{x} \|^2$ ，使任意方程都存在唯一解，而且解比较稳定。这种技术是广义上的正则化，所以正则化是使任意方程的解存在且唯一，而且还稳定的技术，是一种广泛应用于各个领域的技术。或者说，任意方程可以通过正则化，使解存在且唯一，还稳定。

现在来证明结构风险 $\|\mathbf{\hat{x}_\lambda}\|$ 随 $\lambda$ 增大而减小。首先给出定理：矩阵分解 $A^TA=Q\Lambda Q^T$ ，其中 $Q$ 是正交矩阵， $\Lambda=diag(\lambda_1,\cdots,\lambda_n)$ 是对角阵，且对角元素大于等于零 $\lambda_i \ge 0$ ，当存在对角元素为零，则说明矩阵 $A^TA$ 奇异，不可逆；或趋近零，则方程病态。该定理是矩阵分解的基石，后面章节会证明。
$\mathbf{\hat{x}_\lambda}=(A^TA+\lambda E)^{-1}A^T\mathbf{b}=\\ (A^TA+\lambda E)^{-1}(A^TA)(A^TA)^{-1}A^T\mathbf{b}=\\ (A^TA+\lambda E)^{-1}(A^TA)\mathbf{\hat{x}}=\\ (Q \Lambda Q^T+\lambda QEQ^T)^{-1}(Q \Lambda Q^T)\mathbf{\hat{x}}=\\ Q(\Lambda+\lambda E)^{-1}Q^T(Q \Lambda Q^T)\mathbf{\hat{x}}=\\ Q(\Lambda+\lambda E)^{-1}\Lambda Q^T\mathbf{\hat{x}}=\\ QDQ^T\mathbf{\hat{x}}\\ D=(\Lambda+\lambda E)^{-1}\Lambda=diag(\frac{\lambda_1}{\lambda_1+\lambda},\cdots,\frac{\lambda_n}{\lambda_n+\lambda})\\ d_i = \frac{\lambda_i}{\lambda_i+\lambda} \le 1\\ Q=[ \mathbf{q_1},\cdots,\mathbf{q_n}]\\ \because QDQ^T=d_1\mathbf{q_1}\mathbf{q^T_1}+\cdots+d_n\mathbf{q_n}\mathbf{q^T_n}\\ \therefore \mathbf{\hat{x}_\lambda}=(d_1\mathbf{q_1}\mathbf{q^T_1}+\cdots+d_n\mathbf{q_n}\mathbf{q^T_n})\mathbf{\hat{x}}=d_1\mathbf{q_1}(\mathbf{q^T_1}\mathbf{\hat{x}})+\cdots+d_n\mathbf{q_n}(\mathbf{q^T_n}\mathbf{\hat{x}})\\ \because \mathbf{\hat{x}}=\mathbf{q_1}(\mathbf{q^T_1}\mathbf{\hat{x}})+\cdots+\mathbf{q_n}(\mathbf{q^T_n}\mathbf{\hat{x}})\\ \therefore \|\mathbf{\hat{x}_\lambda}\| \le \|\mathbf{\hat{x}}\|$

注意到上式中普通最小二乘解的正交分解和正则最小二乘解的正交分解中前的系数 $d_i$ 。随着 $\lambda$ 增大， $d_i$ 减小，故 $\|\mathbf{\hat{x}_\lambda}\|$ 随 $\lambda$ 增大而减小， $\lambda$ 无穷大时， $d_i$ 趋近 $0$ ，故 $\|\mathbf{\hat{x}_\lambda}\|$ 趋近 $0$ 。当 $\lambda$ 固定时， $\lambda_i$ 越大，则 $d_i$ 越接近 $1$ ，说明正交分量 $\mathbf{q^T_i}\mathbf{\hat{x}}$ 减小比例越小，能保持基本不变，故正则化对这些分量影响很小，我们称这些大的 $\lambda_i$ 对应的分量 $\mathbf{q^T_i}\mathbf{\hat{x}}$ 是主成分。这也说明主成分不容易受测量噪声影响，能保持稳定。 $\lambda_i$ 很小时 $d_i$ 接近 $0$ ，说明正交分量 $\mathbf{q^T_i}\mathbf{\hat{x}}$ 趋近 $0$ ，故正则化减小了这些分量的影响，这也说明这些分量容易受测量噪声影响。

现在证明经验风险 $\| \mathbf{b}-A\mathbf{x} \|^2$ 随 $\lambda$ 增大而增大。

$\| \mathbf{b}-A\mathbf{x} \|^2 = (\mathbf{b}-A\mathbf{x})^T(\mathbf{b}-A\mathbf{x})= \mathbf{b}^T\mathbf{b} - (\mathbf{b}^TA\mathbf{x}+\mathbf{x}^TA^Tb-\mathbf{x}^TA^TA\mathbf{x})=\\ \mathbf{b}^T\mathbf{b} - (2\mathbf{x}^TA^Tb-\mathbf{x}^TA^TA\mathbf{x})\\ \because A^Tb = (A^TA+\lambda E)\mathbf{\hat{x}_\lambda} \quad A^TA=Q\Lambda Q^T \\ \therefore \| \mathbf{b}-A\mathbf{\hat{x}_\lambda} \|^2 = \mathbf{b}^T\mathbf{b} - (2\mathbf{\hat{x}_\lambda}^T(Q\Lambda Q^T+\lambda E)\mathbf{\hat{x}_\lambda}-\mathbf{\hat{x}_\lambda}^TQ\Lambda Q^T\mathbf{\hat{x}_\lambda}) \\ \because \mathbf{\hat{x}_\lambda} = QDQ^T\mathbf{\hat{x}} \\ \therefore \| \mathbf{b}-A\mathbf{\hat{x}_\lambda} \|^2 = \mathbf{b}^T\mathbf{b} - (\mathbf{\hat{x}}^TQ(D\Lambda D+2\lambda DD)Q^T\mathbf{\hat{x}})\\ \because S = D\Lambda D+2\lambda DD=diag(\frac{\lambda_1^3}{(\lambda_1+\lambda)^2}+2\frac{\lambda\lambda_1^2}{(\lambda_1+\lambda)^2},\cdots, \frac{\lambda_n^3}{(\lambda_n+\lambda)^2}+2\frac{\lambda\lambda_n^2}{(\lambda_n+\lambda)^2}) \\ \because d_i = \frac{\lambda_i^3}{(\lambda_i+\lambda)^2}+2\frac{\lambda\lambda_i^2}{(\lambda_i+\lambda)^2} 随 \lambda 增大而减小，最后趋近 0\\ \therefore \| \mathbf{b}-A\mathbf{\hat{x}_\lambda} \|^2 随 \lambda 增大而增大，最后趋近 \mathbf{b}^T\mathbf{b}$

所以每个测量点的残差 $b_i-\mathbf{a}^T_{ri} \mathbf{\hat{x}_\lambda}$ 随着 $\lambda$ 增大而增大，对数据的拟合效果变差，经验风险变大，但结构风险变小。因此最优 $\lambda$ 不能太大，否则经验风险太大，拟合效果太差；也不能太小，否则结构风险会大，最优解容易受噪声影响。所以最优 $\lambda$ 应该是不引起结构风险时，越小越好。很可惜的是，虽然目前发展了多种理论方法寻找最优 $\lambda$ ，但没有证据表明哪种是最好的。实践中可采用如下两种简单方法，其它理论方法读者可以查阅文献。

第一种岭迹法，即画出最优解 $\mathbf{\hat{x}_\lambda}$ 每个分量 $\hat{x_i}_\lambda$ 随 $\lambda$ 的变化曲线，把这些曲线绘制在一张图上。 $\lambda$ 为横坐标，从零开始，可以采用对数坐标，每个分量 $\hat{x_i}_\lambda$ 为纵坐标。根据前面分析，随着 $\lambda$ 变大， $\mathbf{\hat{x}_\lambda}$ 范数变小，故每个分量总趋势也是变小，趋向 $0$ 。前面分析指出主成分不容易受测量噪声影响，能保持稳定，故其随 $\lambda$ 变化不大，非主成分容易受测量噪声影响，故其随 $\lambda$ 变化很大，不稳定。所以当所有分量 $\hat{x_i}_\lambda$ 都比较稳定时，此时 $\lambda$ 最优。这只是理论分析，实际情况很复杂，选择最优 $\lambda$ 主观性很强，每个人都会有不同的选择。岭迹法主要适合测量数据不是很多，所有测量数据都用来计算最优解 $\mathbf{\hat{x}_\lambda}$ 。

测量数据很多时，可以采用机器学习的方法。即把测量数据随机分为两组，第一组数据用来计算不同 $\lambda$ 值对应的最优解 $\mathbf{\hat{x}_\lambda}$ ，然后采用第二组数量，计算该组数据的预测残差平方和，根据预测残差平方和最小原则，选出最优 $\lambda$ 值。有两个需要注意的地方，第一是数据必须是随机分为两组，每组具体多少为合适，需要根据总的测量数据来定。如果数据总数在100左右，则第一组可以有70左右；如果数据总数在1000左右，则第一组可以有500左右。第二是计算哪些 $\lambda$ 值，一般来说可在对数坐标下随机选取多个 $\lambda$ 值，或者简单选 $10, 1, 0, 0.1, 0.01, 0.001$ 等。

正则化可以和加权最小二乘法结合，此时解为 $\mathbf{\hat{x}} = (A^TSA+\lambda E)^{-1}A^TS\mathbf{b}$ 。

需要说明的是，除了对解向量施加 $\lambda \| \mathbf{x} \|^2$ 且 $\lambda > 0$ 2-范数约束外，还可以施加其它约束。比如 $\lambda \sum_i|x_i|$ 且 $\lambda > 0$ 约束，也可以使解稳定，该约束称为1-范数约束，很可惜没有显示解，只能采用迭代方法获得近似解。性质和2-范数约束类似，也是随着 $\lambda$ 增大，最优解的范数减小，差别是1-范数约束不仅使最优解的范数减小，还会使最优解的某些分量变为 $0$ 。假设方程 $A\mathbf{x}=\mathbf{b}$ 解分量 $x_i$ 为 $0$ ，则对应列 $\mathbf{a}_i$ 对 $\mathbf{b}$ 无影响，是冗余数据，可以去除，达到精简方程的目的。

数据标准化

正则化优化目标为最小化 $min_\mathbf{x} \| \mathbf{b}-A\mathbf{x} \|^2 + \lambda \| \mathbf{x} \|^2$ ，这里面有个特别需要注意的地方。测量数据组成矩阵 $A$ ，假设某列数据 $\mathbf{a}_i$ 由于单位的原因，比如原来采用毫米作为单位，现在采用米为单位，则其数值会缩小1000倍，则对应的最优解分量 ${\hat{x_i}}_\lambda$ 会变大1000倍，则优化目标中的结构风险 $\lambda \| \mathbf{x} \|^2$ 也会随之增大1000倍，这会导致结构风险占据主导地位，使最优解远离理想值，这显然不合理。因为理想情况下，不管采用什么单位，结果应该是一样的。所以为了避免这种情况，需要先对数据进行预处理，使之不受单位的影响，一般采用标准化手段，使矩阵 $A$ 每列数据都在0附近，这样最优解每个分量量级都大致相当。数据标准化操作很简单，即先计算矩阵 $A$ 每列数据的平均值 $\bar{a}_j$ 和标准差 $\sigma_j$ ，然后矩阵 $A$ 每列数据中每个元素减去对应列的平均值 $\bar{a}_j$ 后再除以标准差 $\sigma_j$ ，即 $a'_{ij}＝(a_{ij}-\bar{a}_j)/\sigma_j$ 作为标准化后的元素值。向量 $\mathbf{b}$ 也同样处理，即 $b'_i＝(b_i-\bar{b})/\sigma_b$ ， $\bar{b}$ 是向量 $\mathbf{b}$ 元素值的平均值， $\sigma_b$ 是标准差。方程变为 $A'\mathbf{x} = \mathbf{b}'$ 。如果数据是正态分布，则标准化后，数据变为均值为 $0$ ，标准差为 $1$ 的标准正态分布。这也是名称“标准化”的由来，使数据成为标准正态分布。特别提醒，即使不采用正则化技术，解任意线性方程都可以先采用数据标准化，然后求解，这样会提高解的质量。机器学习中都需要提前对数据进行预处理，数据标准化是最常用的预处理手段。

jhshanvip

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5.8 正则化和数据标准化

5.8 正则化和数据标准化方程 Ax=bA\mathbf{x}=\mathbf{b}Ax=b 矩阵 AAA 列满秩时才有最小二乘解。矩阵 AAA 列满秩，即矩阵列向量组是无关组，根据无关组性质，即不存在非零向量 v\mathbf{v}v 使 Av=0A\mathbf{v}=\mathbf{0}Av=0 成立。矩阵 AAA 向量组极其接近相关时，则存在非零单位向量 v,u\mathbf{v},\m...
复制链接

扫一扫

专栏目录