换个角度看回归——极大似然估计

最新推荐文章于 2024-07-08 15:46:00 发布

Cerisier

最新推荐文章于 2024-07-08 15:46:00 发布

阅读量4.5k

点赞数 6

分类专栏：机器学习文章标签：极大似然估计线性回归逻辑回归 MLE

本文链接：https://blog.csdn.net/cerisier/article/details/78016486

版权

本文介绍了极大似然估计的概念，通过极大似然估计重新审视线性回归和逻辑回归。线性回归中，最小二乘法和极大似然估计殊途同归，都导致了正规方程的求解；而在逻辑回归中，模型基于伯努利分布，通过极大似然估计得到损失函数。文章帮助读者深入理解这两种回归模型的本质。

摘要由CSDN通过智能技术生成

极大似然估计与回归

极大似然估计

先简单说下似然(likelihood)和概率(probability)的区别，两者都是对可能性的表示。概率是在给定了一定参数值后，表示了一件事物发生的可能性；而似然则反其道而行之，是在给定了一系列结果后，表示了某一组参数值的可能性。那么最大似然估计的思想，就是在给定了一组结果后哪一组参数的可能性最大；反过来说，就是使用这样一组参数，出现给定结果的可能性最大。即条件概率 $P(X|\Theta) = \mathcal{L}(\Theta|X)$ 。

根据机器学习的目的，我们就是在找寻一组参数，这组参数可以让机器取代人工进行分类、拟合等功能，从定义的角度来看，极大似然估计似乎正是我们所需要的。下面我们就用极大似然估计的方法来重新学习下线性回归和逻辑回归（LR）。

线性回归

最小二乘法

想必大家已经对线性回归足够的了解，再简单回顾一下，给定一组样本 $X$ 和结果 $Y$ ，希望得到一组参数 $\Theta$ 从而能够尽可能使得 $Y_{i}$ 和 $X_{i}^T\Theta$ 相近。假设 $\hat{Y_{i}} = X_{i}^T\Theta$ ，那么对于样本 $X_{i}$ 来说，其估计的误差就是 $|Y_{i} - \hat{Y_{i}}|$ 。那么我们想要得到一组最好的参数 $\Theta$ ，就代表我们要尽可能缩小所有样本的误差之和，这就是最小二乘法的本质。

根据上面的回顾，我们很容易得到常用的代价函数：

J(Θ)=12m∑i=0m(Yi−Yi^)2 $\mathcal{J}(\Theta) = \frac{1}{2m}\sum\limits_{i=0}^{m}(Y_{i} - \hat{Y_{i}})^2$

而我们接下来要做的就是最小化这个代价函数从而能够找到一组参数 $\Theta$ 使得总误差最小。

极大似然法

那么我们现在就从极大似然估计的角度来看一下线性回归的本质。现在我们假设 $Y_{i} = X_{i}^T\Theta + \epsilon_i = \hat{Y_{i}} + \epsilon_i$ 。这个式子中 $\epsilon$ 代表着误差。且 $\epsilon_i \sim \mathcal{N}(0,\sigma^2)$ 。这个条件也就解释了为什么线性回归是 高斯模型 的。