机器学习笔记之线性回归——正则化介绍与岭回归
引言
在线性回归介绍中提到了用于线性回归求解拟合方程参数 W \mathcal W W的一种工具——最小二乘法,本节将介绍使用最小二乘法求解线性回归任务中的问题,并介绍岭回归(Ridge Regression)。
回顾:最小二乘法
最小二乘法是求解线性回归拟合方程参数 W \mathcal W W的一种常用工具。假设数据集合 D a t a Data Data表示如下:
D a t a = { ( x ( i ) , y ( i ) ) ∣ i = 1 , 2 , ⋯ , N } Data = \{(x^{(i)},y^{(i)})|_{i=1,2,\cdots,N}\} Data={(x(i),y(i))∣i=1,2,⋯,N}
令数据集合 D a t a Data Data的拟合方程为 F ( W ) = W T x ( i ) , F(\mathcal W)=\mathcal W^{T}x^{(i)}, F(W)=WTx(i),那么最小二乘法的表示结果如下:
L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} - y^{(i)}||^2 L(W)=i=1∑N∣∣WTx(i)−y(i)∣∣2
求解最优模型参数 W ^ \hat {\mathcal W} W^的一般形式表示如下:
W ^ = ( X T X ) − 1 X T Y \hat {\mathcal W} = (\mathcal X^{T}\mathcal X)^{-1}\mathcal X^{T}\mathcal Y W^=(XTX)−1XTY
其中, X , Y \mathcal X,\mathcal Y X,Y分别是自变量、因变量的集合:
X = ( x ( 1 ) , x ( 2 ) , ⋯ , x ( N ) ) T = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯ , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯ , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯ , x p ( N ) ) N × p , Y = ( y ( 1 ) y ( 2 ) ⋮ y ( N ) ) N × 1 \mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = \begin{pmatrix}x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)}\end{pmatrix}_{N \times p},\mathcal Y = \begin{pmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}\end{pmatrix}_{N \times 1} X=(x(1),x(2),⋯,x(N))T=
x1(1),x2(1),⋯,xp(1)x1(2),x2(2),⋯,xp(2)⋮x1(N),x2(N),⋯,xp(N)
N×p,Y=
y(1)y(2)⋮y(N)
N×1
最小二乘法的弊端
观察 W ^ \hat{\mathcal W} W^的一般式,由于 X \mathcal X X是一个 N × p N \times p N×p的矩阵,因此 X T X \mathcal X^{T}\mathcal X XTX毫无疑问是一个 N × N N \times N N×N的实对称矩阵。
通常情况下,样本数量 N N N远远大于样本维度 p p p,这样才能尽可能地保证有限的特征空间中分布着大量样本。从而使 X T X \mathcal X^{T}\mathcal X XTX矩阵结果的特征值大概率不等于0,从而使得 X T X \mathcal X^{T}\mathcal X XTX是可逆的,最终顺利求解最优参数 W ^ \hat {\mathcal W} W^。
但真实情况可能存在样本维度 p p p远远大于样本数量 N N N。可以想象一下,在极大的特征空间分布着少量样本,这必然会使特征空间内部样本分布非常稀疏。
p > > N p >> N p>>N产生的样本分布稀疏 会出现哪些具体问题?
- 样本分布稀疏很可能导致某一维度可能只有极少数样本的分量。在这种情况下,求解 X T X \mathcal X^{T}\mathcal X XTX过程中,出现某一维度特征值为0的概率更高。
此时的 X T X \mathcal X^{T}\mathcal X XTX结果不是满秩的,自然也是不可逆的。从而导致使用一般式求解最优参数 W ^ \hat{\mathcal W} W^是行不通的。 - 假设在上述特征空间稀疏情况下,运气很好,自变量对应的 X T X \mathcal X^{T}\mathcal X XTX是可逆的。从而确实能够求解最优参数 W ^ \hat {\mathcal W} W^。但是由于 特征空间的稀疏性,导致得到的拟合方程