1、定义
勒让德认为,最小化误差的平方和所估计出来的模型是最接近真实情形的(误差=真实值-理论值)。也就是说,最佳的拟合准则是使 y i y_i yi 与 f ( x i ) f(x_i) f(xi) 的距离的平方和最小,这个准则也被称为最小二乘准则。
L = ∑ i = 1 n ( y i − f ( x i ) ) 2 \textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2} L=i=1∑n(yi−f(xi))2
2、最大似然估计原理
它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定,利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。
假设
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn 为独立同分布的采样,
θ
\theta
θ 为模型参数,
f
f
f 为我们所使用的模型,参数为
θ
\theta
θ 的模型
f
f
f 产生上述采样可表示为:
f
(
x
1
,
x
2
,
⋯
,
x
n
∣
θ
)
=
f
(
x
1
∣
θ
)
×
f
(
x
2
∣
θ
)
×
⋯
×
f
(
x
n
∣
θ
)
f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta)
f(x1,x2,⋯,xn∣θ)=f(x1∣θ)×f(x2∣θ)×⋯×f(xn∣θ)
定义似然函数为:
L
(
θ
∣
x
1
,
x
2
,
⋯
,
x
n
)
=
f
(
x
1
,
x
2
,
⋯
,
x
n
∣
θ
)
=
∏
i
=
1
n
f
(
x
i
∣
θ
)
L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta)
L(θ∣x1,x2,⋯,xn)=f(x1,x2,⋯,xn∣θ)=i=1∏nf(xi∣θ)
求极大似然估计就是找到
θ
\theta
θ 的估计值
θ
^
=
θ
^
(
x
1
,
x
2
,
⋯
,
x
n
)
\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)
θ^=θ^(x1,x2,⋯,xn) 使得上式的
L
(
θ
∣
x
1
,
x
2
,
⋯
,
x
n
)
L(\theta|x_1,x_2,\cdots,x_n)
L(θ∣x1,x2,⋯,xn) 达到最大。当
L
(
θ
∣
x
1
,
x
2
,
⋯
,
x
n
)
L(\theta|x_1,x_2,\cdots,x_n)
L(θ∣x1,x2,⋯,xn) 是可微函数时,求导是求极大似然估计最常用的方法。又因
L
(
θ
)
L(\theta)
L(θ) 和
ln
L
(
θ
)
\ln L(\theta)
lnL(θ) 在同一个
θ
\theta
θ 处取到极值,且对数似然函数
ln
L
(
θ
)
\ln L(\theta)
lnL(θ) 求导更简单,故:
∂
ln
L
∂
θ
i
=
0
,
i
=
1
,
2
,
⋯
,
m
\dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m
∂θi∂lnL=0,i=1,2,⋯,m
判断方程组是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计在
θ
i
\theta_i
θi 的边界上。
3、数学推导
假设:观察值的误差服从标准正态分布,即
ϵ
∈
N
(
0
,
σ
2
)
\epsilon\in N(0,\sigma^2)
ϵ∈N(0,σ2);
我们假设真实的模型参数为
θ
\theta
θ,模型的真实输出为
f
θ
(
x
i
)
f_{\theta}(x_i)
fθ(xi),由于各种问题,我们观测到的样本
y
i
y_i
yi 距离真实值是存在误差的,误差
ϵ
∈
N
(
0
,
σ
2
)
\epsilon\in N(0,\sigma^2)
ϵ∈N(0,σ2),则每个观测样本
y
i
y_i
yi 应该有:
y
i
∈
N
(
f
θ
(
x
i
)
,
σ
2
)
y_i\in N(f_\theta(x_i),\sigma^2)
yi∈N(fθ(xi),σ2)。
在这个问题中,每个样本
y
i
y_i
yi 发生的概率:
p
(
y
i
∣
x
i
;
θ
)
=
1
2
π
σ
e
−
(
y
i
−
f
θ
(
x
i
)
)
2
2
σ
2
p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}
p(yi∣xi;θ)=2πσ1e−2σ2(yi−fθ(xi))2
则似然函数:
L
(
θ
)
=
∏
i
=
1
m
p
(
y
i
∣
x
i
;
θ
)
=
∏
i
=
1
m
1
2
π
σ
e
−
(
y
i
−
f
θ
(
x
i
)
)
2
2
σ
2
L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}
L(θ)=i=1∏mp(yi∣xi;θ)=i=1∏m2πσ1e−2σ2(yi−fθ(xi))2
对数似然函数:
ln
(
L
(
θ
)
)
=
−
1
2
σ
2
∑
i
=
1
m
(
y
i
−
f
θ
(
x
i
)
)
2
−
m
ln
σ
2
π
\ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi}
ln(L(θ))=−2σ21i=1∑m(yi−fθ(xi))2−mlnσ2π
去掉不包含
θ
\theta
θ 的常数项以及系数,则
arg
max
θ
ln
(
L
(
θ
)
)
⇔
arg
min
θ
(
y
i
−
f
θ
(
x
i
)
)
2
\arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2
argθmaxln(L(θ))⇔argθmin(yi−fθ(xi))2
即最大化似然函数等价于极小化最小二乘法的代价函数,这也表明了以误差平方和作为最佳拟合准则的合理性。
4、线性回归
从上述推导结果可以看出,最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数,理论上可以用导数法、几何法,工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。
线性回归定义为:
h
θ
(
x
1
,
x
2
,
⋯
,
x
n
−
1
)
=
θ
0
+
θ
1
x
1
+
⋯
+
θ
n
−
1
x
n
−
1
h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1}
hθ(x1,x2,⋯,xn−1)=θ0+θ1x1+⋯+θn−1xn−1
假设现在有
m
m
m 个样本,每个样本都有
n
−
1
n-1
n−1 维特征,将所有样本点代入模型中得:
h
1
=
θ
0
+
θ
1
x
1
,
1
+
⋯
+
θ
n
−
1
x
1
,
n
−
1
h
2
=
θ
0
+
θ
1
x
2
,
1
+
⋯
+
θ
n
−
1
x
2
,
n
−
1
⋮
h
m
=
θ
0
+
θ
1
x
m
,
1
+
⋯
+
θ
n
−
1
x
m
,
n
−
1
h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\ h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\ \vdots\\ h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1}
h1=θ0+θ1x1,1+⋯+θn−1x1,n−1h2=θ0+θ1x2,1+⋯+θn−1x2,n−1⋮hm=θ0+θ1xm,1+⋯+θn−1xm,n−1
为方便用矩阵表示,令
1
=
x
1
,
0
=
⋯
=
x
m
,
0
1=x_{1,0}=\cdots=x_{m,0}
1=x1,0=⋯=xm,0,于是上述方程可以用矩阵表示为:
h
=
X
θ
\bf h = \bf X \theta
h=Xθ
其中,
h
\bf h
h 为
m
×
1
m\times 1
m×1 的向量,代表模型的理论值,
θ
\theta
θ 为
n
×
1
n\times 1
n×1 的向量,
X
\bf X
X 为
m
×
n
m\times n
m×n 的矩阵,
m
m
m 代表样本的个数,
n
n
n 代表样本的特征数,于是目标损失函数用矩阵表示为:
J
(
θ
)
=
∣
∣
h
−
Y
∣
∣
2
=
∣
∣
X
θ
−
Y
∣
∣
2
=
(
X
θ
−
Y
)
T
(
X
θ
−
Y
)
J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y)
J(θ)=∣∣h−Y∣∣2=∣∣Xθ−Y∣∣2=(Xθ−Y)T(Xθ−Y)
其中, Y \bf Y Y 是样本的输出向量,维度为 m × 1 m\times 1 m×1。
对目标函数化简:
J
(
θ
)
=
θ
T
X
T
X
θ
−
θ
T
X
T
Y
−
Y
T
X
θ
+
Y
T
Y
J(\theta)=\bf\bf{\theta}^T\bf{X}^T X\theta -\theta^TX^TY-Y^TX\theta+Y^TY
J(θ)=θTXTXθ−θTXTY−YTXθ+YTY
求导令其等于0:
∂
∂
θ
J
(
θ
)
=
2
X
T
X
θ
−
2
X
T
Y
=
0
\dfrac{\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^TY=0
∂θ∂J(θ)=2XTXθ−2XTY=0
解得 θ = ( X T X ) − 1 X T Y \bf \theta=(X^TX)^{-1}X^TY θ=(XTX)−1XTY