线性模型之线性回归算法详细推导

线性模型之线性回归算法

一、线性模型基本形式

给定 d d d个属性描述的示例 x = ( x 1 ; x ; x 3 ; . . . ; x d ) x=(x_1;x_;x_3;...;x_d) x=(x1;x;x3;...;xd),其中, x i x_i xi是在第 i i i个属性上的取值,则线性模型可以描述为以下形式:
f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b ( 式 1 ) f(x)=w_1x_1+w_2x_2+...+w_dx_d+b\qquad(式1)\\ f(x)=w1x1+w2x2+...+wdxd+b1
写成向量形式:
f ( x ) = W T x + b ( 式 2 ) f(x)=W^Tx+b\qquad(式2)\\ f(x)=WTx+b2
其中, W = ( w 1 ; w 2 , w 3 ; . . . ; w d ) W=(w_1;w_2,w_3;...;w_d) W=(w1;w2,w3;...;wd),这样一来在确定了 w 和 b w和b wb之后,就可以确定模型。

二、线性回归

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} D={(x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),同时 y i ∈ R y_i\in{\mathbb{R}} yiR.**注意这里都是指向量,不要混淆。**然后线性回归模型就是试图学习得到一个线性模型,然后尽可能准确的预测真是的输出标记。如下所示:
f ( x i ) = w x i + b , 使 得 f ( x i ) ≈ y i ( 式 3 ) f(x_i)=wx_i+b,使得f(x_i)\approx{y_i}\qquad(式3)\\ f(xi)=wxi+b,使f(xi)yi3
这里的任务就是要确定 w 和 b w和b wb,其中求取的关键步骤在于使用均方误差。

三、均方误差

使用均方误差来衡量 f ( x ) 与 y f(x)与y f(x)y之间的差别,他的集合意义是欧氏距离。这里我们试图让均方误差最小化,然后通过求导从而求出参数 w 和 b w和b wb
( w ∗ , b ∗ ) = a r g m i n ( w , b ) ∑ i = 1 m ( f ( x i ) − y i ) 2 = a r g m i n ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 ( 式 4 ) (w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2=argmin_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \qquad(式4)\\ (w,b)=argmin(w,b)i=1m(f(xi)yi)2=argmin(w,b)i=1m(yiwxib)2(4)
集合表示如下:
在这里插入图片描述
可以清楚的看到,有些预测值在真实值的下面,所以这里使用平方,从而消除符号的影响,通常还会乘以 1 2 M \cfrac{1}{2M} 2M1,从而显示出,这里的 1 2 \cfrac{1}{2} 21是为了求导计算的方便性,消除幂指数。

四、线性回归模型的最小二乘“参数估计”

在这里,求解 w 和 b w和b wb使得 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2 E(w,b)=i=1m(yiwxib)2最小化的过程,称之为线性回归模型的最小二乘“参数估计”。对 E ( w , b ) E_{(w,b)} E(w,b)分别对 w 和 b w和b wb求偏导数,当然这里就是求导数。因为对其中的一个参数求导的时候,另一个参数就可以视为常量,故而这就是求导操作。
∂ E ( w , b ) ∂ w = 2 ( ∑ i = 1 m ( y i − w x i − b ) ( − x i ) ) = 2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) ( 式 5 ) \cfrac{\partial{E(w,b)}}{{\partial{w}}}=2(\sum_{i=1}^{m}(y_i-wx_i-b)(-x_i))=2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i) \qquad(式5)\\ wE(w,b)=2(i=1m(yiwxib)(xi))=2(wi=1mxi2i=1m(yib)xi)(5)
∂ E ( w , b ) ∂ b = ∑ i = 1 m ( 2 × ( y i − w x i − b ) ( − 1 ) ) = 2 ( m b − ∑ i = 1 m ( y i − w x i ) ) ( 式 6 ) \cfrac{\partial{E{(w,b)}}}{\partial{b}}=\sum_{i=1}^{m}(2\times(y_i-wx_i-b)(-1))=2(mb-\sum_{i=1}^{m}(y_i-wx_i)) \qquad(式6)\\ bE(w,b)=i=1m(2×(yiwxib)(1))=2(mbi=1m(yiwxi))(6)
这里的 ∑ i = 1 m b \sum_{i=1}^{m}b i=1mb就等于 m b mb mb,因为 b b b i i i无关。
在这里, E ( w , b ) E(w,b) E(w,b)是关于 w 和 b w和b wb凸函数,根据凸优化理论,当其关于 w 和 b w和b wb的导数均为零时,就可以求得 w , b w,b w,b的最优解。

证明 E ( w , b ) E(w,b) E(w,b)为凸函数的过程,见下一篇博客。

五、求解 w , b w,b w,b的公式推导

首先由最小二乘法导出损失函数 ⟹ \Longrightarrow 证明损失函数 E ( w , b ) E(w,b) E(w,b)是关于 w , b w,b w,b的凸函数 ⟹ \Longrightarrow 对损失函数 E ( w , b ) E(w,b) E(w,b)分别关于 w , b w,b w,b求一阶(偏)导数 ⟹ \Longrightarrow 令一阶(偏)导数为零 ⟹ \Longrightarrow 解出 w 和 b w和b wb.

( 式 6 ) 为 零 (式6)为零 (6),即:
2 ( m b − ∑ i = 1 m ( y i − w x i ) ) = 0 ( 式 7 ) 2(mb-\sum_{i=1}^{m}(y_i-wx_i))=0 \qquad(式7)\\ 2(mbi=1m(yiwxi))=0(7)
得 到 : m b − ∑ i = 1 m ( y i − w x i ) = 0 ( 式 8 ) 得到:mb-\sum_{i=1}^{m}(y_i-wx_i)=0 \qquad(式8)\\ mbi=1m(yiwxi)=0(8)
得 到 : b = 1 m ∑ i = 1 m ( y i − w x i ) = y ˉ − w x ˉ ( 式 9 ) 得到:b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)=\bar{y}-w\bar{x} \qquad(式9)\\ b=m1i=1m(yiwxi)=yˉwxˉ(9)

注: 1 m ∑ i = 1 m y i = y ˉ \cfrac{1}{m}\sum_{i=1}^{m}y_i=\bar{y} m1i=1myi=yˉ也就是 y y y的均值;同理 1 m ∑ i = 1 m x i = x ˉ \cfrac{1}{m}\sum_{i=1}^{m}x_i=\bar{x} m1i=1mxi=xˉ

( 式 5 ) 为 零 (式5)为零 (5),即:
2 ( w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i ) = 0 ( 式 10 ) 2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i)=0 \qquad(式10)\\ 2(wi=1mxi2i=1m(yib)xi)=0(10)
w ∑ i = 1 m x i 2 − ∑ i = 1 m ( y i − b ) x i = 0 ( 式 11 ) w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i=0 \qquad(式11)\\ wi=1mxi2i=1m(yib)xi=0(11)
w ∑ i = 1 m x i 2 = ∑ i = 1 m y i x i − ∑ i = 1 m b x i , 将 b 带 入 得 到 下 式 ( 式 12 ) w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}bx_i ,将b带入得到下式 \qquad(式12)\\ wi=1mxi2=i=1myixii=1mbxi,b(12)
w ∑ i = 1 m x i 2 = ∑ i = 1 m y i x i − ∑ i = 1 m ( y ˉ − w x ˉ ) x i ⟺ w ∑ i = 1 m x i 2 − w x ˉ ∑ i = 1 m x i = ∑ i = 1 m y i x i − ∑ i = 1 m y ˉ x i ( 式 13 ) w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}(\bar{y}-w\bar{x})x_i\Longleftrightarrow{w\sum_{i=1}^{m}x_i^2-w\bar{x}\sum_{i=1}^{m}x_i=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i} \qquad(式13)\\ wi=1mxi2=i=1myixii=1m(yˉwxˉ)xiwi=1mxi2wxˉi=1mxi=i=1myixii=1myˉxi(13)
于是, w = ∑ i = 1 m y i x i − ∑ i = 1 m y ˉ x i ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i w=\cfrac{\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i} w=i=1mxi2xˉi=1mxii=1myixii=1myˉxi,哎,怎么发现跟书上不一样呢?

注: ∑ i = 1 m y ˉ x i = 1 m ∑ i = 1 m y i x i = x ˉ ∑ i = 1 m y i \sum_{i=1}^{m}\bar{y}x_i=\cfrac{1}{m}\sum_{i=1}^{m}y_ix_i=\bar{x}\sum_{i=1}^{m}y_i i=1myˉxi=m1i=1myixi=xˉi=1myi同时, x ˉ ∑ i = 1 m x i = 1 m ∑ i = 1 m x i ⋅ ∑ i = 1 m x i = 1 m ( ∑ i = 1 m x i ) 2 \bar{x}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}x_i\cdot\sum_{i=1}^{m}x_i=\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2 xˉi=1mxi=m1i=1mxii=1mxi=m1(i=1mxi)2,所以进一步转为下式:
w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 ( 式 14 ) w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} \qquad(式14)\\ w=i=1mxi2m1(i=1mxi)2i=1myi(xixˉ)(14)
至此,我们就求出了 w 和 b w和b wb的最优解。

六、多元线性回归

相较于上面的线性回归,这里实际上是把 b b b吸收了,具体操作为将 b b b换成 w d + 1 ⋅ 1 w_{d+1}\cdot1 wd+11。这样一来参数就只有 w w w了。
推导过程:由最小二乘法导出损失函数 E w ^ ⟹ E_{\hat{w}}\Longrightarrow Ew^证明损失函数 E w ^ E_{\hat{w}} Ew^是关于 w ^ \hat{w} w^的凸函数 ⟹ \Longrightarrow 对损失函数 E w ^ E_{\hat{w}} Ew^关于 w ^ \hat{w} w^求取一阶导数 ⟹ \Longrightarrow 令一阶导数为零向量解出 w ^ ∗ \hat{w}^* w^
其中,这里是通过将 w 和 b w和b wb组合形成的 w ^ \hat{w} w^

这里关于凸函数的证明,请参见下一篇博客。

f ( x i ) = W T x i + b 写 成 向 量 形 式 如 下 : f(x_i)=W^Tx_i+b \qquad 写成向量形式如下: f(xi)=WTxi+b
f ( x i ) = ( w 1 , w 2 , w 3 , . . . , w d ) ( x i 1 x i 2 ⋮ x i d ) + b (式15) f(x_i)=(w_1,w_2,w_3,...,w_d) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id} \end{matrix} \right)+b \tag{式15} f(xi)=(w1,w2,w3,...,wd)xi1xi2xid+b(15)
展开得到如下式子:
f ( x i ) = w 1 x i 1 + w 2 x i 2 + w 3 x i 3 + ⋯ + w d x i d + b (式16) f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_dx_{id}+b\tag{式16} f(xi)=w1xi1+w2xi2+w3xi3++wdxid+b(16)
因为 ( 式 16 ) (式16) (16)中的 b b b本身就是未知数,所以进行替换为 w d + 1 ⋅ 1 w_{d+1}\cdot1 wd+11是没有任何影响的,这样就得到下式:
f ( x i ) = w 1 x i 1 + w 2 x i 2 + w 3 x i 3 + ⋯ + w d x i d + w d + 1 ⋅ 1 ⟺ f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_{d}x_{id+}w_{d+1}\cdot1\Longleftrightarrow f(xi)=w1xi1+w2xi2+w3xi3++wdxid+wd+11
f ( x i ) = ( w 1 , w 2 , w 3 , ⋯   , w d , w d + 1 ) ( x i 1 x i 2 ⋮ x i d 1 ) (式17) f(x_i)=(w_1,w_2,w_3,\cdots,w_d,w_{d+1}) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1 \end{matrix} \right) \tag{式17} f(xi)=(w1,w2,w3,,wd,wd+1)xi1xi2xid1(17)
其中, ( w 1 , w 2 , w 3 , ⋯   , w d , w d + 1 ) (w_1,w_2,w_3,\cdots,w_d,w_{d+1}) (w1,w2,w3,,wd,wd+1)记为 w ^ T \hat{w}^T w^T,同时 ( x i 1 x i 2 ⋮ x i d 1 ) \left(\begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1\end{matrix}\right) xi1xi2xid1 记为 x ^ i \hat{x}_i x^i,这样 ( 式 17 ) (式17) (17)简写为如下形式: f ( x ^ i ) = w ^ i T x ^ i (式18) f(\hat{x}_i)=\hat{w}_i^T\hat{x}_i \tag{式18} f(x^i)=w^iTx^i(18)

七、多元线性回归损失函数

由最小二乘法导出损失函数 E w ^ E\hat{w} Ew^为:
E w ^ = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − w ^ T x ^ i ) 2 (式19) E\hat{w}=\sum_{i=1}^{m}(y_i-f(x_i))^2=\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 \tag{式19} Ew^=i=1m(yif(xi))2=i=1m(yiw^Tx^i)2(19)
将上式展开,得到展开形式如下;
∑ i = 1 m ( y i − w ^ T x ^ i ) 2 = ( y 1 − w ^ T x ^ 1 ) 2 + ( y 2 − w ^ T x ^ 2 ) 2 + ( y 3 − w ^ T x ^ 3 ) 2 + ⋯ + ( y m − 1 − w ^ T x ^ m − 1 ) 2 + ( y m − w ^ T x ^ m ) 2 ( 式 20 ) \sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 =(y_1-\hat{w}^T\hat{x}_1)^2+(y_2-\hat{w}^T\hat{x}_2)^2+(y_3-\hat{w}^T\hat{x}_3)^2+\cdots+(y_{m-1}-\hat{w}^T\hat{x}_{m-1})^2+(y_m-\hat{w}^T\hat{x}_m)^2 \qquad(式20)\\ i=1m(yiw^Tx^i)2=(y1w^Tx^1)2+(y2w^Tx^2)2+(y3w^Tx^3)2++(ym1w^Tx^m1)2+(ymw^Tx^m)2(20)
将上式写成矩阵相乘的形式,如下:
( y 1 − w ^ T x ^ 1 , y 2 − w ^ T x ^ 2 , y 3 − w ^ T x ^ 3 , ⋯   , y m − w ^ T x ^ m ) ( y 1 − w ^ T x ^ 1 y 2 − w ^ T x ^ 2 y 3 − w ^ T x ^ 3 ⋮ y m − w ^ T x ^ m ) (式21) (y_1-\hat{w}^T\hat{x}_1,y_2-\hat{w}^T\hat{x}_2,y_3-\hat{w}^T\hat{x}_3,\cdots,y_m-\hat{w}^T\hat{x}_m) \left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) \tag{式21} (y1w^Tx^1,y2w^Tx^2,y3w^Tx^3,,ymw^Tx^m)y1w^Tx^1y2w^Tx^2y3w^Tx^3ymw^Tx^m(21)
又因为如下原因:
( y 1 − w ^ T x ^ 1 y 2 − w ^ T x ^ 2 y 3 − w ^ T x ^ 3 ⋮ y m − w ^ T x ^ m ) = ( y 1 y 2 y 3 ⋮ y m ) − ( w ^ T x ^ 1 w ^ T x ^ 2 w ^ T x ^ 3 ⋮ w ^ T x ^ m ) = ( y 1 y 2 y 3 ⋮ y m ) − ( x ^ 1 T w ^ x ^ 2 T w ^ x ^ 3 T w ^ ⋮ x ^ m T w ^ ) (式22) \left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) = \left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{w}^T\hat{x}_1\\ \hat{w}^T\hat{x}_2\\ \hat{w}^T\hat{x}_3\\ \vdots\\ \hat{w}^T\hat{x}_m \end{matrix} \right)=\left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right) \tag{式22} y1w^Tx^1y2w^Tx^2y3w^Tx^3ymw^Tx^m=y1y2y3ymw^Tx^1w^Tx^2w^Tx^3w^Tx^m=y1y2y3ymx^1Tw^x^2Tw^x^3Tw^x^mTw^(22)
其中,后一项满足如下形式变换:
( x ^ 1 T w ^ x ^ 2 T w ^ x ^ 3 T w ^ ⋮ x ^ m T w ^ ) = ( x ^ 1 T x ^ 2 T x ^ 3 T ⋮ x ^ m T ) ⋅ w ^ = X ⋅ w ^ (式23) \left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right)= \left( \begin{matrix} \hat{x}_1^T\\ \hat{x}_2^T\\ \hat{x}_3^T\\ \vdots\\ \hat{x}_m^T\\ \end{matrix} \right)\cdot\hat{w}=X\cdot\hat{w} \tag{式23} x^1Tw^x^2Tw^x^3Tw^x^mTw^=x^1Tx^2Tx^3Tx^mTw^=Xw^(23)
所以损失函数 E w ^ E\hat{w} Ew^最终形式为:
E w ^ = ( Y − X ⋅ w ^ ) T ⋅ ( Y − X ⋅ w ^ ) (式24) E\hat{w}=(Y-X\cdot\hat{w})^T\cdot(Y-X\cdot\hat{w}) \tag{式24} Ew^=(YXw^)T(YXw^)(24)

注: Y = ( y 1 , y 2 , y 3 , ⋯   , y m ) T Y=(y_1,y_2,y_3,\cdots,y_m)^T Y=(y1,y2,y3,,ym)T,同时,矩阵 X X X为:

X = ( x 11 x 12 x 13 ⋯ x 1 d 1 x 21 x 22 x 23 ⋯ x 2 d 1 x 31 x 32 x 33 ⋯ x 3 d 1 ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 x m 3 ⋯ x m d 1 ) = ( x 1 T 1 x 2 T 1 x 3 T 1 ⋮ ⋮ x m T 1 ) = ( x ^ 1 T x ^ 2 T x ^ 3 T ⋮ x ^ m T ) (式25) X= \left( \begin{matrix} x_{11}&x_{12}&x_{13}&\cdots&x_{1d}&1\\ x_{21}&x_{22}&x_{23}&\cdots&x_{2d}&1\\ x_{31}&x_{32}&x_{33}&\cdots&x_{3d}&1\\ \vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\ x_{m1}&x_{m2}&x_{m3}&\cdots&x_{md}&1\\ \end{matrix} \right)=\left( \begin{matrix} x^T_1&1\\ x^T_2&1\\ x^T_3&1\\ \vdots&\vdots\\ x^T_m&1 \end{matrix} \right)=\left( \begin{matrix} \hat{x}^T_1\\ \hat{x}^T_2\\ \hat{x}^T_3\\ \vdots\\ \hat{x}^T_m \end{matrix} \right) \tag{式25} X=x11x21x31xm1x12x22x32xm2x13x23x33xm3x1dx2dx3dxmd1111=x1Tx2Tx3TxmT1111=x^1Tx^2Tx^3Tx^mT(25)

八、求解 w ^ \hat{w} w^公式推导

知识准备: ∂ x T a ∂ x = ∂ a T x ∂ x = a \cfrac{\partial{x}^Ta}{\partial{x}}=\cfrac{\partial{a}^Tx}{\partial{x}}=a xxTa=xaTx=a,以及 ∂ x T β x ∂ x = ( β + β T ) x \cfrac{\partial{x}^T\beta{x}}{\partial{x}}=(\beta+{\beta}^T)x xxTβx=(β+βT)x,这是必须的公式。
求解过程如下:
∂ E w ^ ∂ w ^ = ∂ ( − Y T X w ^ − w ^ T X T Y + w ^ T X T X w ^ ) ∂ w ^ (式26) \cfrac{\partial{E\hat{w}}}{\partial{\hat{w}}}=\cfrac{\partial(-Y^TX\hat{w}-\hat{w}^TX^TY+\hat{w}^TX^TX\hat{w})}{\partial{\hat{w}}} \tag{式26} w^Ew^=w^(YTXw^w^TXTY+w^TXTXw^)(26)
展开有 ( 式 26 ) 等 于 (式26)等于 (26)
= − ∂ ( Y T X w ^ ) ∂ w ^ − ∂ ( w ^ T X T Y ) ∂ w ^ + ∂ ( w ^ T X T X w ^ ) ∂ w ^ = − X T Y − X T Y + ( X T X + X T X ) w ^ = 2 X T ( X w ^ − Y ) (式27) =\cfrac{-\partial{(Y^TX\hat{w})}}{\partial{\hat{w}}}-\cfrac{\partial{(\hat{w}^TX^TY)}}{\partial{\hat{w}}}+\cfrac{\partial(\hat{w}^TX^TX\hat{w})}{\partial\hat{w}}=-X^TY-X^TY+(X^TX+X^TX)\hat{w}=2X^T(X\hat{w}-Y)\tag{式27}\\ =w^(YTXw^)w^(w^TXTY)+w^(w^TXTXw^)=XTYXTY+(XTX+XTX)w^=2XT(Xw^Y)(27)
令一阶导数为令,就可以解出 w ^ ∗ \hat{w}^* w^;
∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − Y ) = 0 , 也 就 是 2 X T X w ^ = 2 X T Y , 最 终 得 出 w ^ ∗ = ( X T X ) − 1 X T Y 。 \cfrac{\partial{E\hat{w}}}{\partial\hat{w}}=2X^T(X\hat{w}-Y)=0,也就是2X^TX\hat{w}=2X^TY,最终得出\hat{w}^*=(X^TX)^{-1}X^TY。 w^Ew^=2XT(Xw^Y)=02XTXw^=2XTY,w^=(XTX)1XTY
至此,我们已经求出最优解。关于此处凸函数,和上面凸函数的证明,请参考下一篇博客。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值