第三章 线性回归
3.1线性回归
一元线性回归
参数估计的方法
1.最小二乘法
基于均方误差最小化进行模型求解的方法称为最小二乘法,即试图找到一条直线,使所有样本到直线的欧氏距离之和最小
均方误差、欧式距离最小化:
a
r
g
m
i
n
(
w
,
b
)
=
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
)
2
argmin_{(w,b)}=\sum_{i=1}^{m}\left ( f(x_{i})-y_{i}) \right )^{2}
argmin(w,b)=i=1∑m(f(xi)−yi))2
2.极大似然法估计
极大似然估计的直观想法:使得观测样本出现概率最大的分布就是待求分布,也即使得联合概率(似然函数) 取到最大值的参数值即为待估计参数的估计值。 联合概率函数:
L
(
θ
)
=
∏
i
=
1
n
P
(
x
i
;
θ
)
L\left ( \theta \right )=\prod_{i=1}^{n}P(x_{i};\theta )
L(θ)=i=1∏nP(xi;θ)
对于线性回归,极大似然估计的应用方法:
假设一元线性回归满足以下模型:
y
=
w
x
+
b
+
ε
y=wx+b+\varepsilon
y=wx+b+ε
其中随机误差满足均值为0的正态分布:
p
(
ϵ
)
=
1
2
π
σ
e
x
p
(
−
ε
2
2
σ
2
)
p\left ( \epsilon \right )=\frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{\varepsilon ^{2}}{2\sigma ^{2} }\right )
p(ϵ)=2πσ1exp(−2σ2ε2)
代换误差可以得到以下式子:
p
(
y
)
=
1
2
π
σ
e
x
p
(
−
(
y
−
(
w
x
+
b
)
)
2
2
σ
2
)
p\left ( y \right )=\frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{(y-(wx+b)) ^{2}}{2\sigma ^{2} }\right )
p(y)=2πσ1exp(−2σ2(y−(wx+b))2)
显然,y服从正态分布,可以用极大似然估计w,b:
L
(
w
,
b
)
=
∏
i
=
1
n
P
(
x
i
;
θ
)
=
∏
i
=
1
n
(
1
2
π
σ
e
x
p
(
−
(
y
i
−
(
w
x
i
+
b
)
)
2
2
σ
2
)
)
L\left ( w,b\right )=\prod_{i=1}^{n}P(x_{i};\theta )=\prod_{i=1}^{n}\left ( \frac{1}{\sqrt{2\pi }\sigma }exp\left ( -\frac{(y_{i}-(wx_{i}+b)) ^{2}}{2\sigma ^{2} }\right ) \right )
L(w,b)=i=1∏nP(xi;θ)=i=1∏n(2πσ1exp(−2σ2(yi−(wxi+b))2))
两边取对数:
l
n
L
(
w
,
b
)
=
∑
i
=
1
m
l
n
(
1
2
π
σ
)
−
1
2
σ
2
∑
i
=
1
m
(
y
i
−
(
w
i
+
b
)
)
)
lnL\left ( w,b\right )=\sum_{i=1}^{m}ln\left ( \frac{1}{\sqrt{2\pi }\sigma }\right )-\frac{1}{2\sigma ^{2}}\sum_{i=1}^{m}\left ( y_{i} -(w_{i}+b))\right )
lnL(w,b)=i=1∑mln(2πσ1)−2σ21i=1∑m(yi−(wi+b)))
可见要使得似然函数最大,需要使得
∑
i
=
1
m
(
y
i
−
(
w
i
+
b
)
)
)
\sum_{i=1}^{m}\left ( y_{i} -(w_{i}+b))\right )
i=1∑m(yi−(wi+b)))
最小,即等价于最小二乘估计
求解w、b
求解定理:
凸充分性定理:若f是凸函数,且f(x)一阶连续可微,则x’是全局解的充分必要条件是△f(x’)=0
判断凸函数定理:设D是非空开凸集,f : D->R ,且f(x)在D上二阶连续可微, 如果 f(x) 的Hessian(海塞)矩阵在 上是半正定的,则 f(x)是 D上的凸函数。
半正定判断定理:若实对称矩阵的所有顺序主子式均为非负(>=0),则该矩阵为半正定矩阵
推导过程:
多元线性回归
导出损失函数Ew
根据最小二乘法可以导出损失函数Ew,推导过程如下: