一开始看统计学习方法上的手推LR,那个最大似然函数那看的晕晕乎乎的。这两天又看了这个大哥讲的空间和概率上定义LR的目标函数,以及求解。清晰很多
1、线性回归 Linear Regression
1.1、目标函数的定义
1.1.1 空间角度
和SVM一样,首先定义目标函数。SVM是从空间考虑,点到超平面的最小距离最大。LR的空间考虑很直观,最小各点到回归线的距离之和。
m
i
n
∑
i
=
1
N
∣
∣
w
T
x
i
−
y
i
∣
∣
2
min \sum_{i=1}^{N}||w^Tx_i-y_i||^2
mini=1∑N∣∣wTxi−yi∣∣2
1.1.2 概率角度
概率角度就是统计学习方法的最大似然了。
什么是最大似然呢?就是让事情A发生的最大概率的模型参数。
我们认为各样本点相互独立,那么总模型的似然函数(概率)为各个样本点的概率乘积。再对其求log
l
o
g
(
∏
i
=
1
N
P
(
y
i
∣
x
i
,
w
)
)
=
∑
i
=
1
N
l
o
g
(
P
(
y
i
∣
x
i
,
w
)
)
log\left(\prod_{i=1}^N P(y_i|x_i,w)\right) = \sum_{i=1}^Nlog\left(P(y_i|x_i,w)\right)
log(i=1∏NP(yi∣xi,w))=i=1∑Nlog(P(yi∣xi,w))
这里认为
(
y
∣
w
,
x
)
(y|w,x)
(y∣w,x)服从均值为
w
x
wx
wx,方差为
σ
2
\sigma^2
σ2的正太分布,所以有
P
(
y
i
∣
x
i
,
w
)
=
1
2
π
σ
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
P(y_i|x_i,w) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}
P(yi∣xi,w)=2πσ1e−2σ2(yi−wTxi)2
因此目标函数为:
m
a
x
P
(
Y
∣
X
,
W
)
=
m
a
x
∑
i
=
1
N
l
o
g
(
P
(
y
i
∣
x
i
,
w
)
)
=
m
a
x
∑
i
=
1
N
(
l
o
g
(
1
2
π
σ
)
+
l
o
g
(
e
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
)
=
m
a
x
∑
i
=
1
N
(
−
l
o
g
(
2
π
σ
)
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
max P(Y|X,W) = max \sum_{i=1}^Nlog\left(P(y_i|x_i,w)\right)\\ =max \sum_{i=1}^{N} \left(log(\frac{1}{\sqrt{2\pi}\sigma})+log(e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\right)\\ =max \sum_{i=1}^{N} \left(-log(\sqrt{2\pi}\sigma)-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right)\\
maxP(Y∣X,W)=maxi=1∑Nlog(P(yi∣xi,w))=maxi=1∑N(log(2πσ1)+log(e−2σ2(yi−wTxi)2))=maxi=1∑N(−log(2πσ)−2σ2(yi−wTxi)2)
这里
σ
\sigma
σ是常数,所以可以约去,目标函数就变为了:
m
a
x
∑
i
=
1
N
(
−
(
y
i
−
w
T
x
i
)
2
)
=
m
i
n
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
max \sum_{i=1}^{N} \left(-{(y_i-w^Tx_i)^2}\right)\\ = min \sum_{i=1}^{N}(y_i-w^Tx_i)^2\\
maxi=1∑N(−(yi−wTxi)2)=mini=1∑N(yi−wTxi)2和上面基于空间的目标函数是一样的。
\\[28pt]
1.2、线性回归的目标函数求解
这个目标函数没有约束很好求,直接求导
∂
L
∂
w
=
∂
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
∂
w
=
0
\frac{\partial \mathcal{L}}{\partial w} = \frac{\partial \sum_{i=1}^{N}(y_i-w^Tx_i)^2}{\partial w} =0
∂w∂L=∂w∂∑i=1N(yi−wTxi)2=0
这里,把
x
x
x和
y
y
y写成列向量:
X
=
[
∣
∣
∣
x
1
x
2
…
x
N
∣
∣
∣
]
Y
=
[
y
1
y
2
.
.
.
y
N
]
X = \left[\begin{array}{cccc} | & | & & | \\ x_{1} & x_{2} & \ldots & x_{N} \\ | & | & & | \end{array}\right]\qquad Y=\left[\begin{array}{cccc} y_1\\ y_2\\ ...\\ y_N \end{array}\right]
X=⎣⎡∣x1∣∣x2∣…∣xN∣⎦⎤Y=⎣⎢⎢⎡y1y2...yN⎦⎥⎥⎤
那么:
∑
i
=
1
N
(
y
i
−
w
T
x
i
)
2
=
(
Y
−
w
T
X
)
2
=
Y
T
Y
−
2
w
T
X
Y
+
w
T
X
X
T
w
\sum_{i=1}^{N}(y_i-w^Tx_i)^2 = (Y-w^TX)^2\\[4pt] =Y^TY-2w^TXY+w^TXX^Tw
i=1∑N(yi−wTxi)2=(Y−wTX)2=YTY−2wTXY+wTXXTw
求导:
∂
L
∂
w
=
∂
(
Y
T
Y
−
2
w
T
X
Y
+
w
T
X
X
T
w
)
∂
w
=
−
2
X
Y
+
2
X
X
T
w
=
0
\frac{\partial \mathcal{L}}{\partial w} = \frac{\partial (Y^TY-2w^TXY+w^TXX^Tw)}{\partial w} \\[4pt] = -2XY + 2XX^Tw =0
∂w∂L=∂w∂(YTY−2wTXY+wTXXTw)=−2XY+2XXTw=0
所以:
w
=
(
X
X
T
)
−
1
X
Y
w = (XX^T)^{-1}XY
w=(XXT)−1XY
这样就求出了线性回归方程
2、逻辑斯蒂回归
我们说的逻辑回归,就是二项的逻辑斯蒂回归。
这里认为Y 服从logistic 分布:
P
(
1
∣
x
)
=
e
w
T
x
+
b
1
+
e
w
T
x
+
b
P(1|x) = \frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}
P(1∣x)=1+ewTx+bewTx+b
用极大似然估计,得到目标函数:
m
a
x
l
o
g
∏
i
=
1
N
P
(
y
i
∣
x
i
)
max\,\, log \prod_{i=1}^NP(y_i|x_i)
maxlogi=1∏NP(yi∣xi)
这里:
P
(
y
i
∣
x
i
)
=
P
(
1
∣
x
i
)
y
i
P
(
0
∣
x
i
)
1
−
y
i
P(y_i|x_i) = P(1|x_i)^{y_i}P(0|x_i)^{1-y_i}
P(yi∣xi)=P(1∣xi)yiP(0∣xi)1−yi
我们先用
π
(
x
i
)
\pi(x_i)
π(xi)来表示
P
(
1
∣
x
i
)
P(1|x_i)
P(1∣xi), 化简目标函数:
m
a
x
l
o
g
∏
i
=
1
N
π
(
x
i
)
y
i
(
1
−
π
(
x
i
)
)
1
−
y
i
=
m
a
x
∑
i
=
1
N
y
i
l
o
g
(
π
(
x
i
)
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
max \,\,log \prod_{i=1}^N\pi(x_i)^{y_i}\left(1-\pi(x_i)\right)^{1-y_i} \\ =max \sum_{i=1}^Ny_ilog(\pi(x_i))+(1-y_i)log(1-\pi(x_i))\\
maxlogi=1∏Nπ(xi)yi(1−π(xi))1−yi=maxi=1∑Nyilog(π(xi))+(1−yi)log(1−π(xi))
然后把
π
(
x
i
)
\pi(x_i)
π(xi)的值带入化简得:
m
a
x
∑
i
=
1
N
[
y
i
(
w
T
x
i
+
b
)
−
l
o
g
(
1
+
e
w
T
x
i
+
b
)
]
max \,\sum_{i=1}^N\left[ y_i(w^Tx_i+b)-log(1+e^{w^Tx_i+b})\right]
maxi=1∑N[yi(wTxi+b)−log(1+ewTxi+b)]
然后可以用梯度下降等方法,去求解最优的
w
w
w 和
b
b
b