最小二乘法

最新推荐文章于 2024-07-25 16:05:31 发布

EasonZzzzzzz

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量804

点赞数 23

分类专栏：数学之美文章标签：最小二乘法概率论机器学习

本文链接：https://blog.csdn.net/m0_72748751/article/details/135271717

版权

数学之美专栏收录该内容

13 篇文章 2 订阅

订阅专栏

在这里插入图片描述

1、定义

勒让德认为，最小化误差的平方和所估计出来的模型是最接近真实情形的（误差=真实值-理论值）。也就是说，最佳的拟合准则是使 $y_i$ 与 $f(x_i)$ 的距离的平方和最小，这个准则也被称为最小二乘准则。

$\textcolor{red}{L=\sum_{i=1}^{n}\Big(y_i-f(x_i)\Big)^2}$

2、最大似然估计原理

它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知，参数未定，利用已知样本结果（统计概率）反推最有可能导致这样结果的参数值。

假设 $x_1,x_2,\cdots,x_n$ 为独立同分布的采样， $\theta$ 为模型参数， $f$ 为我们所使用的模型，参数为 $\theta$ 的模型 $f$ 产生上述采样可表示为：
$f(x_1,x_2,\cdots,x_n|\theta)=f(x_1|\theta)\times f(x_2|\theta)\times\cdots\times f(x_n|\theta)$

定义似然函数为：
$L(\theta|x_1,x_2,\cdots,x_n)=f(x_1,x_2,\cdots,x_n|\theta)=\prod_{i=1}^{n}f(x_i|\theta)$

求极大似然估计就是找到 $\theta$ 的估计值 $\hat\theta=\hat\theta(x_1,x_2,\cdots,x_n)$ 使得上式的 $L(\theta|x_1,x_2,\cdots,x_n)$ 达到最大。当 $L(\theta|x_1,x_2,\cdots,x_n)$ 是可微函数时，求导是求极大似然估计最常用的方法。又因 $L(\theta)$ 和 $\ln L(\theta)$ 在同一个 $\theta$ 处取到极值，且对数似然函数 $\ln L(\theta)$ 求导更简单，故：
$\dfrac{\partial\ln L}{\partial\theta_i}=0,i=1,2,\cdots,m$
判断方程组是否有解，若有解，则其解即为所求的最大似然估计，若无解，则最大似然估计在 $\theta_i$ 的边界上。

3、数学推导

假设：观察值的误差服从标准正态分布，即 $\epsilon\in N(0,\sigma^2)$ ；
我们假设真实的模型参数为 $\theta$ ，模型的真实输出为 $f_{\theta}(x_i)$ ，由于各种问题，我们观测到的样本 $y_i$ 距离真实值是存在误差的，误差 $\epsilon\in N(0,\sigma^2)$ ，则每个观测样本 $y_i$ 应该有： $y_i\in N(f_\theta(x_i),\sigma^2)$ 。

在这个问题中，每个样本 $y_i$ 发生的概率：
$p(y_i|x_i;\theta)=\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}$

则似然函数：
$L(\theta)=\prod_{i=1}^mp(y_i|x_i;\theta)=\prod_{i=1}^m\dfrac{1}{\sqrt {2\pi}\sigma}e^{-\dfrac{(y_i-f_\theta(x_i))^2}{2\sigma^2}}$

对数似然函数：
$\ln(L(\theta))=-\dfrac{1}{2\sigma^2}\sum_{i=1}^m(y_i-f_\theta(x_i))^2-m\ln\sigma\sqrt{2\pi}$

去掉不包含 $\theta$ 的常数项以及系数，则
$\arg\max_\theta\ln(L(\theta))\Leftrightarrow\arg\min_\theta(y_i-f_{\theta}(x_i))^2$

即最大化似然函数等价于极小化最小二乘法的代价函数，这也表明了以误差平方和作为最佳拟合准则的合理性。

4、线性回归

从上述推导结果可以看出，最小二乘法其实就是用来做函数拟合的一种思想。至于怎么求出具体的参数，理论上可以用导数法、几何法，工程上可以用梯度下降法。下面以最常用的线性回归为例进行推导和理解。

线性回归定义为： $h_\theta(x_1,x_2,\cdots,x_{n-1})=\theta_0+\theta_1x_1+\cdots+\theta_{n-1}x_{n-1}$
假设现在有 $m$ 个样本，每个样本都有 $n - 1$ 维特征，将所有样本点代入模型中得：
$h_1=\theta_0+\theta_1x_{1,1}+\cdots+\theta_{n-1}x_{1,n-1}\\ h_2=\theta_0+\theta_1x_{2,1}+\cdots+\theta_{n-1}x_{2,n-1}\\ \vdots\\ h_m=\theta_0+\theta_1x_{m,1}+\cdots+\theta_{n-1}x_{m,n-1}$

为方便用矩阵表示，令 $1=x_{1,0}=\cdots=x_{m,0}$ ，于是上述方程可以用矩阵表示为：
$\bf h = \bf X \theta$

其中， $\bf h$ 为 $m\times 1$ 的向量，代表模型的理论值， $\theta$ 为 $n\times 1$ 的向量， $\bf X$ 为 $m\times n$ 的矩阵， $m$ 代表样本的个数， $n$ 代表样本的特征数，于是目标损失函数用矩阵表示为：
$J(\theta) = \bf||\bf{h} - \bf{Y}||^2=||\bf X\theta-\bf Y||^2=(\bf X\theta-Y)^T(\bf X\theta-Y)$