机器学习笔记之线性回归——正则化介绍与岭回归

引言

线性回归介绍中提到了用于线性回归求解拟合方程参数 W \mathcal W W的一种工具——最小二乘法,本节将介绍使用最小二乘法求解线性回归任务中的问题,并介绍岭回归(Ridge Regression)。

回顾:最小二乘法

最小二乘法是求解线性回归拟合方程参数 W \mathcal W W的一种常用工具。假设数据集合 D a t a Data Data表示如下:
D a t a = { ( x ( i ) , y ( i ) ) ∣ i = 1 , 2 , ⋯   , N } Data = \{(x^{(i)},y^{(i)})|_{i=1,2,\cdots,N}\} Data={(x(i),y(i))i=1,2,,N}
令数据集合 D a t a Data Data拟合方程 F ( W ) = W T x ( i ) , F(\mathcal W)=\mathcal W^{T}x^{(i)}, F(W)=WTx(i)那么最小二乘法的表示结果如下:
L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} - y^{(i)}||^2 L(W)=i=1N∣∣WTx(i)y(i)2
求解最优模型参数 W ^ \hat {\mathcal W} W^一般形式表示如下:
W ^ = ( X T X ) − 1 X T Y \hat {\mathcal W} = (\mathcal X^{T}\mathcal X)^{-1}\mathcal X^{T}\mathcal Y W^=(XTX)1XTY
其中, X , Y \mathcal X,\mathcal Y X,Y分别是自变量、因变量的集合
X = ( x ( 1 ) , x ( 2 ) , ⋯   , x ( N ) ) T = ( x 1 ( 1 ) , x 2 ( 1 ) , ⋯   , x p ( 1 ) x 1 ( 2 ) , x 2 ( 2 ) , ⋯   , x p ( 2 ) ⋮ x 1 ( N ) , x 2 ( N ) , ⋯   , x p ( N ) ) N × p , Y = ( y ( 1 ) y ( 2 ) ⋮ y ( N ) ) N × 1 \mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = \begin{pmatrix}x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)}\end{pmatrix}_{N \times p},\mathcal Y = \begin{pmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}\end{pmatrix}_{N \times 1} X=(x(1),x(2),,x(N))T= x1(1),x2(1),,xp(1)x1(2),x2(2),,xp(2)x1(N),x2(N),,xp(N) N×p,Y= y(1)y(2)y(N) N×1

最小二乘法的弊端

观察 W ^ \hat{\mathcal W} W^的一般式,由于 X \mathcal X X是一个 N × p N \times p N×p的矩阵,因此 X T X \mathcal X^{T}\mathcal X XTX毫无疑问是一个 N × N N \times N N×N实对称矩阵
通常情况下,样本数量 N N N远远大于样本维度 p p p,这样才能尽可能地保证有限的特征空间中分布着大量样本。从而使 X T X \mathcal X^{T}\mathcal X XTX矩阵结果特征值大概率不等于0,从而使得 X T X \mathcal X^{T}\mathcal X XTX是可逆的,最终顺利求解最优参数 W ^ \hat {\mathcal W} W^

真实情况可能存在样本维度 p p p远远大于样本数量 N N N。可以想象一下,在极大的特征空间分布着少量样本,这必然会使特征空间内部样本分布非常稀疏

p > > N p >> N p>>N产生的样本分布稀疏 会出现哪些具体问题?

  • 样本分布稀疏很可能导致某一维度可能只有极少数样本的分量。在这种情况下,求解 X T X \mathcal X^{T}\mathcal X XTX过程中,出现某一维度特征值为0的概率更高
    此时的 X T X \mathcal X^{T}\mathcal X XTX结果不是满秩的,自然也是不可逆的。从而导致使用一般式求解最优参数 W ^ \hat{\mathcal W} W^是行不通的
  • 假设在上述特征空间稀疏情况下,运气很好自变量对应的 X T X \mathcal X^{T}\mathcal X XTX是可逆的。从而确实能够求解最优参数 W ^ \hat {\mathcal W} W^。但是由于 特征空间的稀疏性,导致得到的拟合方程
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静静的喝酒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值