机器学习——线性回归理论推导

文章讨论了正定矩阵的性质,Hessian矩阵在极值点的应用,以及矩阵的2-范数和矩阵求导法则。以多元线性回归为例,解释了满秩矩阵和正定矩阵对最优解闭式解的影响,并通过Hessian矩阵的正定性证明了极值的存在。
摘要由CSDN通过智能技术生成

预备知识

1.正定矩阵:设A为实对称矩阵,若二次型X^TAX为正定,即对于任意一组不全为零的实数X=(c_1,c_2,...c_n)都有X^TAX>0

补充:当矩阵顺序主子式全部大于0时,可判断该矩阵为正定矩阵。

2.Hessina矩阵:如果F的所有二阶导数都存在,则F的Hessian矩阵为

M_F=\begin{bmatrix} \frac{\partial^2 F}{\partial x_1^2} &...& \frac{\partial^2 F}{\partial x_1x_n}\\ ...&...&...\\ \frac{\partial^2 F}{\partial x_nx_1} &...& \frac{\partial^2 F}{\partial x_n^2} \end{bmatrix}

补充:当Hessina矩阵为正定矩阵时,可知F在该点为极小值。

3.矩阵的2-范数:又名欧几里得范数,即向量元素绝对值的平方和再开方,||X||_2=\sqrt{\sum_{i=1}^{n}\sum_{j=1}^{m}x_{ij}^2}||X-Y||_2可以表示矩阵之间的距离。

4.矩阵求导法则:设存在矩阵m*n矩阵Yp维向量x=(x_1...x_p),我们有

\frac{\partial{Y}}{\partial{x}}=(\frac{\partial{Y}}{\partial{x_1}}...\frac{\partial{Y}}{\partial{x_p}})

补充:(1)f(x)=Ax\rightarrow\frac{\partial{f(x)}}{\partial{x^T}}=A(2)f(x)=x^TAx\rightarrow\frac{\partial{f(x)}}{\partial{x}}=Ax+A^Tx

5.柯西-施瓦茨不等式:\sum_{i=1}^ma_k^2\sum_{i=1}^mb_k^2\geq(\sum_{i=1}^{m}a_kb_k)^2,当且仅当\frac{a_i}{b_i}=\frac{a_j}{b_j}时等号成立。

公式推理

1.给定数据集D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\},对于学到的模型f(x)=wx+b,我们有w,b最优解的闭式解为:w=\frac{\sum_{i=1}^my_i(x_i-x^-)}{\sum_{i-1}^mx_i^2-\frac1m(\sum_{i=1}^mx_i)^2}b=\frac1m\sum_{i=1}^m(y_i-wx_i)

证明:我们有要想使误差最小,需要衡量f(x_i)x_i之间的差异,即使得E_{(w,b)}=\sum_{i=1}^{m}(f(x_i)-y_i)^2值最小。由于给定数据个数m为有限,那么我们将E_{(w,b)}w求导得到下式:

\frac{\partial{E_{(w,b)}}}{\partial w}\\=\frac{\partial{\sum_{i=1}^{m}(f(x_i)-y_i)^2}}{\partial w}\\=\frac{\partial{\sum_{i=1}^{m}(wx_i+b-y_i)^2}}{\partial w} \\=\frac{\sum_{i=1}^{m}\partial{(wx_i+b-y_i)^2}}{\partial w}\\=\sum_{i=1}^m2(wx_i^2+bx_i-y_ix_i)

同理对b求导有:

\frac{\partial{E_{(w,b)}}}{\partial b}\\=\frac{\partial{\sum_{i=1}^{m}(f(x_i)-y_i)^2}}{\partial b} \\=\sum_{i=1}^m2(wx_i+b-y_i)

由于E_{(w,b)}关于w,b得二次二次函数,下面我们构造该函数得Hessian矩阵。

我们将\frac{\partial{E_{(w,b)}}}{\partial w}w,b求偏导有:

\frac{\partial^2{E_{(w,b)}}}{\partial w^2}\\=\frac{\partial\sum_{i=1}^m2(wx_i^2+bx_i-y_ix_i)}{\partial w}\\=\sum_{i=1}^m2x_i^2

\frac{\partial^2{E_{(w,b)}}}{\partial w\partial b}\\=\frac{\partial\sum_{i=1}^m2(wx_i^2+bx_i-y_ix_i)}{\partial b}\\=\sum_{i=1}^m2x_i

我们将\frac{\partial{E_{(w,b)}}}{\partial b}w,b求偏导有:

\frac{\partial^2{E_{(w,b)}}}{\partial b^2}\\=\frac{\partial{\sum_{i=1}^m2(wx_i+b-y_i)}}{\partial b}\\ =2m

\frac{\partial^2{E_{(w,b)}}}{\partial b\partial w}\\=\frac{\partial^2{E_{(w,b)}}}{\partial w\partial b}\\=\sum_{i=1}^m2x_i

由Hessian矩阵定义我们可知该Hessian矩阵为:

A=\begin{bmatrix} \sum_{i=1}^m2x_i^2 &\sum_{i=1}^m2x_i \\ \sum_{i=1}^m2x_i & 2m \end{bmatrix}

由柯西—施瓦兹不等式可知\sum_{i=1}^m2x_i^2 \sum_{i=1}^m1\geq(\sum_{i=1}^mx_i*1)^2,且\sum_{i=1}^m2x_i^2>0我们可知Hessian矩阵为正定矩阵。我们可知E_{(w,b)}存在极小值,且极小值在\frac{\partial{E_{(w,b)}}}{\partial w}=0,\frac{\partial{E_{(w,b)}}}{\partial b}=0处。联立方程组,我们有:

b=\frac{1}{m}\sum_{i=1}^my_i-\frac1mw\sum_{i=1}^mx_i=\frac1m\sum_{i=1}^m(y_i-wx_i)

将其带入到\frac{\partial{E_{(w,b)}}}{\partial w}=0有:

w\sum_{i=1}^mx_i^2+(\frac{1}{m}\sum_{i=1}^my_i-\frac1mw\sum_{i=1}^mx_i)\sum_{i=1}^mx_i-\sum_{i=1}^mx_iy_i=0

w\sum_{i=1}^mx_i^2+\frac{1}{m}\sum_{i=1}^my_i\sum_{i=1}^mx_i-\frac1mw\sum_{i=1}^mx_i\sum_{i=1}^mx_i-\sum_{i=1}^mx_iy_i=0

由于有\frac{1}{m}\sum_{i=1}^my_i\sum_{i=1}^mx_i=\sum_{i=1}^my_i(\frac{\sum_{i=1}^mx_i}m)=\sum_{i=1}^my_i\overline{x_i},则有:

w(\sum_{i=1}^mx_i^2-\frac1m(\sum_{i=1}^mx_i)^2)+\sum_{i=1}^my_i\overline{x_i}-\sum_{i=1}^mx_iy_i=0

w=\frac{\sum_{i=1}^mx_iy_i-\sum_{i=1}^my_i\overline{x_i}}{\sum_{i=1}^mx_i^2-\frac1m(\sum_{i=1}^mx_i)^2}

由于该二元二次函数只有一个极小值点,我们可知该极值点为函数的最小值点,证毕。

2.给定数据集D=\{(x_1,y_1),(x_2,y_2),...(x_m,y_m)\},对于学到的多元线性回归模型f(x)=w^Tx+bX^TX为满秩矩阵或正定矩阵时,我们有\widehat{w}=(w,b)最优解的闭式解为:\widehat{w}=(X^TX)^{-1}X^Ty,其中

X=\begin{bmatrix} x_{11} &x_{12}& ...&x_{1d}&1\\ ... & ...& ...& ...\\ x_{m1} &x_{m2}& ...&x_{md}&1\\ \end{bmatrix} =\begin{bmatrix} x_{1} ^T&1\\ ...& ...\\ x_{m}^T&1\\ \end{bmatrix}

证明:我们设y=(y_1,y_2,...,y_m)^T由为使得f(x_i)值与y_i值相差最小,我们使用2-范数来刻画两个矩阵之间的距离即||y-w^Tx_i-b||_2最小。下面对该取值进行推断:

E_{\widehat{w}}=||y-w^Tx_i-b||_2^2\\=||y-X\widehat{w}||_2^2\\=\sum_{i=1}^m(y_i-\widehat{x_i})^2\\=(y-X\widehat{w})^T(y-X\widehat{w})\\=(y^T-\widehat{w}^TX^T)(y-X\widehat{w})\\=y^Ty-y^TX\widehat{w}-\widehat{w}^TX^Ty+\widehat{w}^TX^TX\widehat{w}

我们将该式对\widehat{w}求偏导有:

\frac{\partial{E_{\widehat{w}}}}{\partial{\widehat{w}}}\\=y^Ty-y^TX\widehat{w}-\widehat{w}^TX^Ty+\widehat{w}^TX^TX\widehat{w}\\=0-X^Ty-X^Ty+(X^TX+(X^TX)^T)\widehat{w}\\=2X^T(X\widehat{w}-y)

由于假设X^TX为满秩矩阵或正定矩阵,我们使2X^T(X\widehat{w}-y)=0

2X^TX\widehat{w}-2X^Ty=0

X^TX\widehat{w}=X^Ty

\widehat{w}=(X^TX)^{-1}X^Ty

由于X^TX为满秩矩阵或正定矩阵,所以我们有\frac{\partial^2{E_{\widehat{w}}}}{\partial{\widehat{w}^2}}=\frac{\partial2X^T(X\widehat{w}-y)}{\partial{\widehat{w}}}=2X^TX>0,我们有\widehat{w}=(X^TX)^{-1}X^Ty为最小值点。

  • 15
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LZINC

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值