【机器学习基础】最小二乘与极大似然估计

最新推荐文章于 2024-04-06 15:13:55 发布

迷你小龙虾

最新推荐文章于 2024-04-06 15:13:55 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/dadada1231234/article/details/90409187

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最小二乘法

最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是求解未知参数，使得理论值与观测值之差（即误差，或者说残差）的平方和达到最小：
$E=\sum_{m}^{i}e^2=\sum_{m}^{i}(y_i-\hat{y})^2$
其中， $y_i$ 为观测样本， $\hat{y}$ 为我们的期望值， $E$ 即为损失函数，在机器学习中，我们通常最小化 $E$ 来确定昌参数。

直线拟合/多元线性回归

对于多元线性函数，有如下表达式： $h_\theta(x_1,x_2,...,x_n)=\theta_{0}+\theta_{1}x_1+...+\theta_{n}x_n$
故损失函数可以写成如下形式: $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2=\frac{1}{2}tr((X\theta-Y)^T(X\theta-Y))$
note:对标量进行迹的运算不改变运算结果
于是，对 $\theta$ 求偏导: $\frac{\partial J(\theta)}{\partial \theta}=X^{T}X\theta-X^{T}Y$
令偏导为0，得到： $\theta=(X^{T}X)^{-1}X^{T}Y$
这样，我们便得到了参数的解析解。需要注意的是，最小二乘法是在假定随机误差项服从标准（均值为0即可）的正态分布的特殊情况，即从极大似然的角度，当假定误差项服从均值为0的正态分布时，损失函数与最小二乘完全一致。下面我们来看看极大似然估计

极大似然估计

现在假设我们有m个样本，我们假设有：
在这里插入图片描述
假定误差项服从正态分布，我们有：

即有：

那么我们可以写成似然函数：

由极大似然估计的定义，我们需要 $L(\theta)$ 最大，那么我们怎么才能是的这个值最大呢？两边取对数对这个表达式进行化简如下：
在这里插入图片描述
需要 $l(\theta)$ 最大，也即最后一项的后半部分最小，也即：

可以看到，损失函数的表达形式与最小二乘完全一致，我们可以直接求偏导得到解析解或利用梯度下降得到全局最优（表达式为凸函数）。