线性模型之线性回归算法
一、线性模型基本形式
给定
d
d
d个属性描述的示例
x
=
(
x
1
;
x
;
x
3
;
.
.
.
;
x
d
)
x=(x_1;x_;x_3;...;x_d)
x=(x1;x;x3;...;xd),其中,
x
i
x_i
xi是在第
i
i
i个属性上的取值,则线性模型可以描述为以下形式:
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
.
.
.
+
w
d
x
d
+
b
(
式
1
)
f(x)=w_1x_1+w_2x_2+...+w_dx_d+b\qquad(式1)\\
f(x)=w1x1+w2x2+...+wdxd+b(式1)
写成向量形式:
f
(
x
)
=
W
T
x
+
b
(
式
2
)
f(x)=W^Tx+b\qquad(式2)\\
f(x)=WTx+b(式2)
其中,
W
=
(
w
1
;
w
2
,
w
3
;
.
.
.
;
w
d
)
W=(w_1;w_2,w_3;...;w_d)
W=(w1;w2,w3;...;wd),这样一来在确定了
w
和
b
w和b
w和b之后,就可以确定模型。
二、线性回归
给定数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
m
,
y
m
)
}
D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}
D={(x1,y1),(x2,y2),...,(xm,ym)},其中
x
i
=
(
x
i
1
;
x
i
2
;
.
.
.
;
x
i
d
)
x_i=(x_{i1};x_{i2};...;x_{id})
xi=(xi1;xi2;...;xid),同时
y
i
∈
R
y_i\in{\mathbb{R}}
yi∈R.**注意这里都是指向量,不要混淆。**然后线性回归模型就是试图学习得到一个线性模型,然后尽可能准确的预测真是的输出标记。如下所示:
f
(
x
i
)
=
w
x
i
+
b
,
使
得
f
(
x
i
)
≈
y
i
(
式
3
)
f(x_i)=wx_i+b,使得f(x_i)\approx{y_i}\qquad(式3)\\
f(xi)=wxi+b,使得f(xi)≈yi(式3)
这里的任务就是要确定
w
和
b
w和b
w和b,其中求取的关键步骤在于使用均方误差。
三、均方误差
使用均方误差来衡量
f
(
x
)
与
y
f(x)与y
f(x)与y之间的差别,他的集合意义是欧氏距离。这里我们试图让均方误差最小化,然后通过求导从而求出参数
w
和
b
w和b
w和b。
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
a
r
g
m
i
n
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
(
式
4
)
(w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2=argmin_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \qquad(式4)\\
(w∗,b∗)=argmin(w,b)i=1∑m(f(xi)−yi)2=argmin(w,b)i=1∑m(yi−wxi−b)2(式4)
集合表示如下:
可以清楚的看到,有些预测值在真实值的下面,所以这里使用平方,从而消除符号的影响,通常还会乘以
1
2
M
\cfrac{1}{2M}
2M1,从而显示出均,这里的
1
2
\cfrac{1}{2}
21是为了求导计算的方便性,消除幂指数。
四、线性回归模型的最小二乘“参数估计”
在这里,求解
w
和
b
w和b
w和b使得
E
(
w
,
b
)
=
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
E_{(w,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2
E(w,b)=∑i=1m(yi−wxi−b)2最小化的过程,称之为线性回归模型的最小二乘“参数估计”。对
E
(
w
,
b
)
E_{(w,b)}
E(w,b)分别对
w
和
b
w和b
w和b求偏导数,当然这里就是求导数。因为对其中的一个参数求导的时候,另一个参数就可以视为常量,故而这就是求导操作。
∂
E
(
w
,
b
)
∂
w
=
2
(
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
(
−
x
i
)
)
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
(
式
5
)
\cfrac{\partial{E(w,b)}}{{\partial{w}}}=2(\sum_{i=1}^{m}(y_i-wx_i-b)(-x_i))=2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i) \qquad(式5)\\
∂w∂E(w,b)=2(i=1∑m(yi−wxi−b)(−xi))=2(wi=1∑mxi2−i=1∑m(yi−b)xi)(式5)
∂
E
(
w
,
b
)
∂
b
=
∑
i
=
1
m
(
2
×
(
y
i
−
w
x
i
−
b
)
(
−
1
)
)
=
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
(
式
6
)
\cfrac{\partial{E{(w,b)}}}{\partial{b}}=\sum_{i=1}^{m}(2\times(y_i-wx_i-b)(-1))=2(mb-\sum_{i=1}^{m}(y_i-wx_i)) \qquad(式6)\\
∂b∂E(w,b)=i=1∑m(2×(yi−wxi−b)(−1))=2(mb−i=1∑m(yi−wxi))(式6)
这里的
∑
i
=
1
m
b
\sum_{i=1}^{m}b
∑i=1mb就等于
m
b
mb
mb,因为
b
b
b与
i
i
i无关。
在这里,
E
(
w
,
b
)
E(w,b)
E(w,b)是关于
w
和
b
w和b
w和b凸函数,根据凸优化理论,当其关于
w
和
b
w和b
w和b的导数均为零时,就可以求得
w
,
b
w,b
w,b的最优解。
证明 E ( w , b ) E(w,b) E(w,b)为凸函数的过程,见下一篇博客。
五、求解 w , b w,b w,b的公式推导
首先由最小二乘法导出损失函数 ⟹ \Longrightarrow ⟹证明损失函数 E ( w , b ) E(w,b) E(w,b)是关于 w , b w,b w,b的凸函数 ⟹ \Longrightarrow ⟹对损失函数 E ( w , b ) E(w,b) E(w,b)分别关于 w , b w,b w,b求一阶(偏)导数 ⟹ \Longrightarrow ⟹令一阶(偏)导数为零 ⟹ \Longrightarrow ⟹解出 w 和 b w和b w和b.
令
(
式
6
)
为
零
(式6)为零
(式6)为零,即:
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
=
0
(
式
7
)
2(mb-\sum_{i=1}^{m}(y_i-wx_i))=0 \qquad(式7)\\
2(mb−i=1∑m(yi−wxi))=0(式7)
得
到
:
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
=
0
(
式
8
)
得到:mb-\sum_{i=1}^{m}(y_i-wx_i)=0 \qquad(式8)\\
得到:mb−i=1∑m(yi−wxi)=0(式8)
得
到
:
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
=
y
ˉ
−
w
x
ˉ
(
式
9
)
得到:b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)=\bar{y}-w\bar{x} \qquad(式9)\\
得到:b=m1i=1∑m(yi−wxi)=yˉ−wxˉ(式9)
注: 1 m ∑ i = 1 m y i = y ˉ \cfrac{1}{m}\sum_{i=1}^{m}y_i=\bar{y} m1∑i=1myi=yˉ也就是 y y y的均值;同理 1 m ∑ i = 1 m x i = x ˉ \cfrac{1}{m}\sum_{i=1}^{m}x_i=\bar{x} m1∑i=1mxi=xˉ。
令
(
式
5
)
为
零
(式5)为零
(式5)为零,即:
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
=
0
(
式
10
)
2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i)=0 \qquad(式10)\\
2(wi=1∑mxi2−i=1∑m(yi−b)xi)=0(式10)
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
=
0
(
式
11
)
w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i=0 \qquad(式11)\\
wi=1∑mxi2−i=1∑m(yi−b)xi=0(式11)
w
∑
i
=
1
m
x
i
2
=
∑
i
=
1
m
y
i
x
i
−
∑
i
=
1
m
b
x
i
,
将
b
带
入
得
到
下
式
(
式
12
)
w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}bx_i ,将b带入得到下式 \qquad(式12)\\
wi=1∑mxi2=i=1∑myixi−i=1∑mbxi,将b带入得到下式(式12)
w
∑
i
=
1
m
x
i
2
=
∑
i
=
1
m
y
i
x
i
−
∑
i
=
1
m
(
y
ˉ
−
w
x
ˉ
)
x
i
⟺
w
∑
i
=
1
m
x
i
2
−
w
x
ˉ
∑
i
=
1
m
x
i
=
∑
i
=
1
m
y
i
x
i
−
∑
i
=
1
m
y
ˉ
x
i
(
式
13
)
w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}(\bar{y}-w\bar{x})x_i\Longleftrightarrow{w\sum_{i=1}^{m}x_i^2-w\bar{x}\sum_{i=1}^{m}x_i=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i} \qquad(式13)\\
wi=1∑mxi2=i=1∑myixi−i=1∑m(yˉ−wxˉ)xi⟺wi=1∑mxi2−wxˉi=1∑mxi=i=1∑myixi−i=1∑myˉxi(式13)
于是,
w
=
∑
i
=
1
m
y
i
x
i
−
∑
i
=
1
m
y
ˉ
x
i
∑
i
=
1
m
x
i
2
−
x
ˉ
∑
i
=
1
m
x
i
w=\cfrac{\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i}
w=∑i=1mxi2−xˉ∑i=1mxi∑i=1myixi−∑i=1myˉxi,哎,怎么发现跟书上不一样呢?
注:
∑
i
=
1
m
y
ˉ
x
i
=
1
m
∑
i
=
1
m
y
i
x
i
=
x
ˉ
∑
i
=
1
m
y
i
\sum_{i=1}^{m}\bar{y}x_i=\cfrac{1}{m}\sum_{i=1}^{m}y_ix_i=\bar{x}\sum_{i=1}^{m}y_i
∑i=1myˉxi=m1∑i=1myixi=xˉ∑i=1myi同时,
x
ˉ
∑
i
=
1
m
x
i
=
1
m
∑
i
=
1
m
x
i
⋅
∑
i
=
1
m
x
i
=
1
m
(
∑
i
=
1
m
x
i
)
2
\bar{x}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}x_i\cdot\sum_{i=1}^{m}x_i=\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2
xˉ∑i=1mxi=m1∑i=1mxi⋅∑i=1mxi=m1(∑i=1mxi)2,所以进一步转为下式:
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
ˉ
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
x
i
)
2
(
式
14
)
w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} \qquad(式14)\\
w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)(式14)
至此,我们就求出了
w
和
b
w和b
w和b的最优解。
六、多元线性回归
相较于上面的线性回归,这里实际上是把
b
b
b给吸收了,具体操作为将
b
b
b换成
w
d
+
1
⋅
1
w_{d+1}\cdot1
wd+1⋅1。这样一来参数就只有
w
w
w了。
推导过程:由最小二乘法导出损失函数
E
w
^
⟹
E_{\hat{w}}\Longrightarrow
Ew^⟹证明损失函数
E
w
^
E_{\hat{w}}
Ew^是关于
w
^
\hat{w}
w^的凸函数
⟹
\Longrightarrow
⟹对损失函数
E
w
^
E_{\hat{w}}
Ew^关于
w
^
\hat{w}
w^求取一阶导数
⟹
\Longrightarrow
⟹令一阶导数为零向量解出
w
^
∗
\hat{w}^*
w^∗。
其中,这里是通过将
w
和
b
w和b
w和b组合形成的
w
^
\hat{w}
w^。
这里关于凸函数的证明,请参见下一篇博客。
f
(
x
i
)
=
W
T
x
i
+
b
写
成
向
量
形
式
如
下
:
f(x_i)=W^Tx_i+b \qquad 写成向量形式如下:
f(xi)=WTxi+b写成向量形式如下:
f
(
x
i
)
=
(
w
1
,
w
2
,
w
3
,
.
.
.
,
w
d
)
(
x
i
1
x
i
2
⋮
x
i
d
)
+
b
(式15)
f(x_i)=(w_1,w_2,w_3,...,w_d) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id} \end{matrix} \right)+b \tag{式15}
f(xi)=(w1,w2,w3,...,wd)⎝⎜⎜⎜⎛xi1xi2⋮xid⎠⎟⎟⎟⎞+b(式15)
展开得到如下式子:
f
(
x
i
)
=
w
1
x
i
1
+
w
2
x
i
2
+
w
3
x
i
3
+
⋯
+
w
d
x
i
d
+
b
(式16)
f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_dx_{id}+b\tag{式16}
f(xi)=w1xi1+w2xi2+w3xi3+⋯+wdxid+b(式16)
因为
(
式
16
)
(式16)
(式16)中的
b
b
b本身就是未知数,所以进行替换为
w
d
+
1
⋅
1
w_{d+1}\cdot1
wd+1⋅1是没有任何影响的,这样就得到下式:
f
(
x
i
)
=
w
1
x
i
1
+
w
2
x
i
2
+
w
3
x
i
3
+
⋯
+
w
d
x
i
d
+
w
d
+
1
⋅
1
⟺
f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_{d}x_{id+}w_{d+1}\cdot1\Longleftrightarrow
f(xi)=w1xi1+w2xi2+w3xi3+⋯+wdxid+wd+1⋅1⟺
f
(
x
i
)
=
(
w
1
,
w
2
,
w
3
,
⋯
,
w
d
,
w
d
+
1
)
(
x
i
1
x
i
2
⋮
x
i
d
1
)
(式17)
f(x_i)=(w_1,w_2,w_3,\cdots,w_d,w_{d+1}) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1 \end{matrix} \right) \tag{式17}
f(xi)=(w1,w2,w3,⋯,wd,wd+1)⎝⎜⎜⎜⎜⎜⎛xi1xi2⋮xid1⎠⎟⎟⎟⎟⎟⎞(式17)
其中,
(
w
1
,
w
2
,
w
3
,
⋯
,
w
d
,
w
d
+
1
)
(w_1,w_2,w_3,\cdots,w_d,w_{d+1})
(w1,w2,w3,⋯,wd,wd+1)记为
w
^
T
\hat{w}^T
w^T,同时
(
x
i
1
x
i
2
⋮
x
i
d
1
)
\left(\begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1\end{matrix}\right)
⎝⎜⎜⎜⎜⎜⎛xi1xi2⋮xid1⎠⎟⎟⎟⎟⎟⎞ 记为
x
^
i
\hat{x}_i
x^i,这样
(
式
17
)
(式17)
(式17)简写为如下形式:
f
(
x
^
i
)
=
w
^
i
T
x
^
i
(式18)
f(\hat{x}_i)=\hat{w}_i^T\hat{x}_i \tag{式18}
f(x^i)=w^iTx^i(式18)
七、多元线性回归损失函数
由最小二乘法导出损失函数
E
w
^
E\hat{w}
Ew^为:
E
w
^
=
∑
i
=
1
m
(
y
i
−
f
(
x
i
)
)
2
=
∑
i
=
1
m
(
y
i
−
w
^
T
x
^
i
)
2
(式19)
E\hat{w}=\sum_{i=1}^{m}(y_i-f(x_i))^2=\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 \tag{式19}
Ew^=i=1∑m(yi−f(xi))2=i=1∑m(yi−w^Tx^i)2(式19)
将上式展开,得到展开形式如下;
∑
i
=
1
m
(
y
i
−
w
^
T
x
^
i
)
2
=
(
y
1
−
w
^
T
x
^
1
)
2
+
(
y
2
−
w
^
T
x
^
2
)
2
+
(
y
3
−
w
^
T
x
^
3
)
2
+
⋯
+
(
y
m
−
1
−
w
^
T
x
^
m
−
1
)
2
+
(
y
m
−
w
^
T
x
^
m
)
2
(
式
20
)
\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 =(y_1-\hat{w}^T\hat{x}_1)^2+(y_2-\hat{w}^T\hat{x}_2)^2+(y_3-\hat{w}^T\hat{x}_3)^2+\cdots+(y_{m-1}-\hat{w}^T\hat{x}_{m-1})^2+(y_m-\hat{w}^T\hat{x}_m)^2 \qquad(式20)\\
i=1∑m(yi−w^Tx^i)2=(y1−w^Tx^1)2+(y2−w^Tx^2)2+(y3−w^Tx^3)2+⋯+(ym−1−w^Tx^m−1)2+(ym−w^Tx^m)2(式20)
将上式写成矩阵相乘的形式,如下:
(
y
1
−
w
^
T
x
^
1
,
y
2
−
w
^
T
x
^
2
,
y
3
−
w
^
T
x
^
3
,
⋯
,
y
m
−
w
^
T
x
^
m
)
(
y
1
−
w
^
T
x
^
1
y
2
−
w
^
T
x
^
2
y
3
−
w
^
T
x
^
3
⋮
y
m
−
w
^
T
x
^
m
)
(式21)
(y_1-\hat{w}^T\hat{x}_1,y_2-\hat{w}^T\hat{x}_2,y_3-\hat{w}^T\hat{x}_3,\cdots,y_m-\hat{w}^T\hat{x}_m) \left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) \tag{式21}
(y1−w^Tx^1,y2−w^Tx^2,y3−w^Tx^3,⋯,ym−w^Tx^m)⎝⎜⎜⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2y3−w^Tx^3⋮ym−w^Tx^m⎠⎟⎟⎟⎟⎟⎞(式21)
又因为如下原因:
(
y
1
−
w
^
T
x
^
1
y
2
−
w
^
T
x
^
2
y
3
−
w
^
T
x
^
3
⋮
y
m
−
w
^
T
x
^
m
)
=
(
y
1
y
2
y
3
⋮
y
m
)
−
(
w
^
T
x
^
1
w
^
T
x
^
2
w
^
T
x
^
3
⋮
w
^
T
x
^
m
)
=
(
y
1
y
2
y
3
⋮
y
m
)
−
(
x
^
1
T
w
^
x
^
2
T
w
^
x
^
3
T
w
^
⋮
x
^
m
T
w
^
)
(式22)
\left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) = \left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{w}^T\hat{x}_1\\ \hat{w}^T\hat{x}_2\\ \hat{w}^T\hat{x}_3\\ \vdots\\ \hat{w}^T\hat{x}_m \end{matrix} \right)=\left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right) \tag{式22}
⎝⎜⎜⎜⎜⎜⎛y1−w^Tx^1y2−w^Tx^2y3−w^Tx^3⋮ym−w^Tx^m⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎛y1y2y3⋮ym⎠⎟⎟⎟⎟⎟⎞−⎝⎜⎜⎜⎜⎜⎛w^Tx^1w^Tx^2w^Tx^3⋮w^Tx^m⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎛y1y2y3⋮ym⎠⎟⎟⎟⎟⎟⎞−⎝⎜⎜⎜⎜⎜⎛x^1Tw^x^2Tw^x^3Tw^⋮x^mTw^⎠⎟⎟⎟⎟⎟⎞(式22)
其中,后一项满足如下形式变换:
(
x
^
1
T
w
^
x
^
2
T
w
^
x
^
3
T
w
^
⋮
x
^
m
T
w
^
)
=
(
x
^
1
T
x
^
2
T
x
^
3
T
⋮
x
^
m
T
)
⋅
w
^
=
X
⋅
w
^
(式23)
\left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right)= \left( \begin{matrix} \hat{x}_1^T\\ \hat{x}_2^T\\ \hat{x}_3^T\\ \vdots\\ \hat{x}_m^T\\ \end{matrix} \right)\cdot\hat{w}=X\cdot\hat{w} \tag{式23}
⎝⎜⎜⎜⎜⎜⎛x^1Tw^x^2Tw^x^3Tw^⋮x^mTw^⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎛x^1Tx^2Tx^3T⋮x^mT⎠⎟⎟⎟⎟⎟⎞⋅w^=X⋅w^(式23)
所以损失函数
E
w
^
E\hat{w}
Ew^最终形式为:
E
w
^
=
(
Y
−
X
⋅
w
^
)
T
⋅
(
Y
−
X
⋅
w
^
)
(式24)
E\hat{w}=(Y-X\cdot\hat{w})^T\cdot(Y-X\cdot\hat{w}) \tag{式24}
Ew^=(Y−X⋅w^)T⋅(Y−X⋅w^)(式24)
注: Y = ( y 1 , y 2 , y 3 , ⋯ , y m ) T Y=(y_1,y_2,y_3,\cdots,y_m)^T Y=(y1,y2,y3,⋯,ym)T,同时,矩阵 X X X为:
X = ( x 11 x 12 x 13 ⋯ x 1 d 1 x 21 x 22 x 23 ⋯ x 2 d 1 x 31 x 32 x 33 ⋯ x 3 d 1 ⋮ ⋮ ⋮ ⋱ ⋮ ⋮ x m 1 x m 2 x m 3 ⋯ x m d 1 ) = ( x 1 T 1 x 2 T 1 x 3 T 1 ⋮ ⋮ x m T 1 ) = ( x ^ 1 T x ^ 2 T x ^ 3 T ⋮ x ^ m T ) (式25) X= \left( \begin{matrix} x_{11}&x_{12}&x_{13}&\cdots&x_{1d}&1\\ x_{21}&x_{22}&x_{23}&\cdots&x_{2d}&1\\ x_{31}&x_{32}&x_{33}&\cdots&x_{3d}&1\\ \vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\ x_{m1}&x_{m2}&x_{m3}&\cdots&x_{md}&1\\ \end{matrix} \right)=\left( \begin{matrix} x^T_1&1\\ x^T_2&1\\ x^T_3&1\\ \vdots&\vdots\\ x^T_m&1 \end{matrix} \right)=\left( \begin{matrix} \hat{x}^T_1\\ \hat{x}^T_2\\ \hat{x}^T_3\\ \vdots\\ \hat{x}^T_m \end{matrix} \right) \tag{式25} X=⎝⎜⎜⎜⎜⎜⎛x11x21x31⋮xm1x12x22x32⋮xm2x13x23x33⋮xm3⋯⋯⋯⋱⋯x1dx2dx3d⋮xmd111⋮1⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎛x1Tx2Tx3T⋮xmT111⋮1⎠⎟⎟⎟⎟⎟⎞=⎝⎜⎜⎜⎜⎜⎛x^1Tx^2Tx^3T⋮x^mT⎠⎟⎟⎟⎟⎟⎞(式25)
八、求解 w ^ \hat{w} w^公式推导
知识准备:
∂
x
T
a
∂
x
=
∂
a
T
x
∂
x
=
a
\cfrac{\partial{x}^Ta}{\partial{x}}=\cfrac{\partial{a}^Tx}{\partial{x}}=a
∂x∂xTa=∂x∂aTx=a,以及
∂
x
T
β
x
∂
x
=
(
β
+
β
T
)
x
\cfrac{\partial{x}^T\beta{x}}{\partial{x}}=(\beta+{\beta}^T)x
∂x∂xTβx=(β+βT)x,这是必须的公式。
求解过程如下:
∂
E
w
^
∂
w
^
=
∂
(
−
Y
T
X
w
^
−
w
^
T
X
T
Y
+
w
^
T
X
T
X
w
^
)
∂
w
^
(式26)
\cfrac{\partial{E\hat{w}}}{\partial{\hat{w}}}=\cfrac{\partial(-Y^TX\hat{w}-\hat{w}^TX^TY+\hat{w}^TX^TX\hat{w})}{\partial{\hat{w}}} \tag{式26}
∂w^∂Ew^=∂w^∂(−YTXw^−w^TXTY+w^TXTXw^)(式26)
展开有
(
式
26
)
等
于
(式26)等于
(式26)等于:
=
−
∂
(
Y
T
X
w
^
)
∂
w
^
−
∂
(
w
^
T
X
T
Y
)
∂
w
^
+
∂
(
w
^
T
X
T
X
w
^
)
∂
w
^
=
−
X
T
Y
−
X
T
Y
+
(
X
T
X
+
X
T
X
)
w
^
=
2
X
T
(
X
w
^
−
Y
)
(式27)
=\cfrac{-\partial{(Y^TX\hat{w})}}{\partial{\hat{w}}}-\cfrac{\partial{(\hat{w}^TX^TY)}}{\partial{\hat{w}}}+\cfrac{\partial(\hat{w}^TX^TX\hat{w})}{\partial\hat{w}}=-X^TY-X^TY+(X^TX+X^TX)\hat{w}=2X^T(X\hat{w}-Y)\tag{式27}\\
=∂w^−∂(YTXw^)−∂w^∂(w^TXTY)+∂w^∂(w^TXTXw^)=−XTY−XTY+(XTX+XTX)w^=2XT(Xw^−Y)(式27)
令一阶导数为令,就可以解出
w
^
∗
\hat{w}^*
w^∗;
∂
E
w
^
∂
w
^
=
2
X
T
(
X
w
^
−
Y
)
=
0
,
也
就
是
2
X
T
X
w
^
=
2
X
T
Y
,
最
终
得
出
w
^
∗
=
(
X
T
X
)
−
1
X
T
Y
。
\cfrac{\partial{E\hat{w}}}{\partial\hat{w}}=2X^T(X\hat{w}-Y)=0,也就是2X^TX\hat{w}=2X^TY,最终得出\hat{w}^*=(X^TX)^{-1}X^TY。
∂w^∂Ew^=2XT(Xw^−Y)=0,也就是2XTXw^=2XTY,最终得出w^∗=(XTX)−1XTY。
至此,我们已经求出最优解。关于此处凸函数,和上面凸函数的证明,请参考下一篇博客。