最小二乘法

在这里插入图片描述

1、定义

勒让德认为,最小化误差的平方和所估计出来的模型是最接近真实情形的(误差=真实值-理论值)。也就是说,最佳的拟合准则是使 y i y_i yi f ( x i ) f(x_i) f(xi) 的距离的平方和最小,这个准则也被称为最小二乘准则。

L = ∑ i = 1 n ( y i − f ( x i ) ) 2 \textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2} L=i=1n(yif(xi))2

2、最大似然估计原理

它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定,利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。

假设 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn 为独立同分布的采样, θ \theta θ 为模型参数, f f f 为我们所使用的模型,参数为 θ \theta θ 的模型 f f f 产生上述采样可表示为:
f ( x 1 , x 2 , ⋯   , x n ∣ θ ) = f ( x 1 ∣ θ ) × f ( x 2 ∣ θ ) × ⋯ × f ( x n ∣ θ ) f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta) f(x1,x2,,xnθ)=f(x1θ)×f(x2θ)××f(xnθ)

定义似然函数为:
L ( θ ∣ x 1 , x 2 , ⋯   , x n ) = f ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n f ( x i ∣ θ ) L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta) L(θx1,x2,,xn)=f(x1,x2,,xnθ)=i=1nf(xiθ)

求极大似然估计就是找到 θ \theta θ 的估计值 θ ^ = θ ^ ( x 1 , x 2 , ⋯   , x n ) \hat\theta=\hat\theta(x_1,x_2,\cdots,x_n) θ^=θ^(x1,x2,,xn) 使得上式的 L ( θ ∣ x 1 , x 2 , ⋯   , x n ) L(\theta|x_1,x_2,\cdots,x_n) L(θx1,x2,,xn) 达到最大。当 L ( θ ∣ x 1 , x 2 , ⋯   , x n ) L(\theta|x_1,x_2,\cdots,x_n) L(θx1,x2,,xn) 是可微函数时,求导是求极大似然估计最常用的方法。又因 L ( θ ) L(\theta) L(θ) ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 在同一个 θ \theta θ 处取到极值,且对数似然函数 ln ⁡ L ( θ ) \ln L(\theta) lnL(θ) 求导更简单,故:
∂ ln ⁡ L ∂ θ i = 0 , i = 1 , 2 , ⋯   , m \dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m θilnL=0,i=1,2,,m
判断方程组是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计在 θ i \theta_i θi 的边界上。

3、数学推导

假设:观察值的误差服从标准正态分布,即 ϵ ∈ N ( 0 , σ 2 ) \epsilon\in N(0,\sigma^2) ϵN(0,σ2)
我们假设真实的模型参数为 θ \theta θ,模型的真实输出为 f θ ( x i ) f_{\theta}(x_i) fθ(xi),由于各种问题,我们观测到的样本 y i y_i yi 距离真实值是存在误差的,误差 ϵ ∈ N ( 0 , σ 2 ) \epsilon\in N(0,\sigma^2) ϵN(0,σ2),则每个观测样本 y i y_i yi 应该有: y i ∈ N ( f θ ( x i ) , σ 2 ) y_i\in N(f_\theta(x_i),\sigma^2) yiN(fθ(xi),σ2)

在这个问题中,每个样本 y i y_i yi 发生的概率:
p ( y i ∣ x i ; θ ) = 1 2 π σ e − ( y i − f θ ( x i ) ) 2 2 σ 2 p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}} p(yixi;θ)=2π σ1e2σ2(yifθ(xi))2

则似然函数:
L ( θ ) = ∏ i = 1 m p ( y i ∣ x i ; θ ) = ∏ i = 1 m 1 2 π σ e − ( y i − f θ ( x i ) ) 2 2 σ 2 L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}} L(θ)=i=1mp(yixi;θ)=i=1m2π σ1e2σ2(yifθ(xi))2

对数似然函数:
ln ⁡ ( L ( θ ) ) = − 1 2 σ 2 ∑ i = 1 m ( y i − f θ ( x i ) ) 2 − m ln ⁡ σ 2 π \ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi} ln(L(θ))=2σ21i=1m(yifθ(xi))2mlnσ2π

去掉不包含 θ \theta θ 的常数项以及系数,则
arg ⁡ max ⁡ θ ln ⁡ ( L ( θ ) ) ⇔ arg ⁡ min ⁡ θ ( y i − f θ ( x i ) ) 2 \arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2 argθmaxln(L(θ))argθmin(yifθ(xi))2

即最大化似然函数等价于极小化最小二乘法的代价函数,这也表明了以误差平方和作为最佳拟合准则的合理性。

4、线性回归

从上述推导结果可以看出,最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数,理论上可以用导数法、几何法,工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。

线性回归定义为: h θ ( x 1 , x 2 , ⋯   , x n − 1 ) = θ 0 + θ 1 x 1 + ⋯ + θ n − 1 x n − 1 h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1} hθ(x1,x2,,xn1)=θ0+θ1x1++θn1xn1
假设现在有 m m m 个样本,每个样本都有 n − 1 n-1 n1 维特征,将所有样本点代入模型中得:
h 1 = θ 0 + θ 1 x 1 , 1 + ⋯ + θ n − 1 x 1 , n − 1 h 2 = θ 0 + θ 1 x 2 , 1 + ⋯ + θ n − 1 x 2 , n − 1 ⋮ h m = θ 0 + θ 1 x m , 1 + ⋯ + θ n − 1 x m , n − 1 h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\ h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\ \vdots\\ h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1} h1=θ0+θ1x1,1++θn1x1,n1h2=θ0+θ1x2,1++θn1x2,n1hm=θ0+θ1xm,1++θn1xm,n1

为方便用矩阵表示,令 1 = x 1 , 0 = ⋯ = x m , 0 1=x_{1,0}=\cdots=x_{m,0} 1=x1,0==xm,0,于是上述方程可以用矩阵表示为:
h = X θ \bf h = \bf X \theta h=Xθ

其中, h \bf h h m × 1 m\times 1 m×1 的向量,代表模型的理论值, θ \theta θ n × 1 n\times 1 n×1 的向量, X \bf X X m × n m\times n m×n 的矩阵, m m m 代表样本的个数, n n n 代表样本的特征数,于是目标损失函数用矩阵表示为:
J ( θ ) = ∣ ∣ h − Y ∣ ∣ 2 = ∣ ∣ X θ − Y ∣ ∣ 2 = ( X θ − Y ) T ( X θ − Y ) J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y) J(θ)=∣∣hY2=∣∣XθY∣2=(XθY)T(XθY)

其中, Y \bf Y Y 是样本的输出向量,维度为 m × 1 m\times 1 m×1

对目标函数化简:
J ( θ ) = θ T X T X θ − θ T X T Y − Y T X θ + Y T Y J(\theta)=\bf\bf{\theta}^T\bf{X}^T X\theta -\theta^TX^TY-Y^TX\theta+Y^TY J(θ)=θTXTXθθTXTYYTXθ+YTY

求导令其等于0:
∂ ∂ θ J ( θ ) = 2 X T X θ − 2 X T Y = 0 \dfrac{\partial}{\partial\theta}J(\theta)=2X^TX\theta-2X^TY=0 θJ(θ)=2XT2XTY=0

解得 θ = ( X T X ) − 1 X T Y \bf \theta=(X^TX)^{-1}X^TY θ=(XTX)1XTY

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值