从最大似然估计的角度理解线性回归和逻辑回归

最新推荐文章于 2021-06-18 23:20:48 发布

Babyface Killer

最新推荐文章于 2021-06-18 23:20:48 发布

阅读量712

点赞数

分类专栏：学习心得文章标签：机器学习算法逻辑回归最大似然

本文链接：https://blog.csdn.net/chaunceyliu30/article/details/117897163

版权

本文从最大似然估计出发，深入探讨线性回归和逻辑回归的原理。最大似然估计旨在寻找最优参数，以最大化样本的联合概率分布。线性回归通过调整权重来最大化观测到样本的概率，其误差项遵循正态分布。逻辑回归则采用广义线性模型，联系函数为Sigmoid，最终得到交叉熵损失函数，同样为凸函数，便于优化求解。

摘要由CSDN通过智能技术生成

写在前面的话

转眼学习数据分析和机器学习也有一年了，虽然上手了不少项目也实际应用过很多机器学习算法，但对于算法的原理和推导确实也还在一知半解的程度。为了知其然还要知其所以然，本篇文章就从最统计学最基础的最大似然估计来推导线性回归和逻辑回归的损失函数。

最大似然估计

通俗地来说，最大似然估计所要达成的目标就是找到一组参数 $\Theta$ 使得表达的概率分布能够在最大程度上拟合观测到的样本的联合概率分布。这句话用数学的语言表达就是： $max P(X;\Theta )$ 或者 $max P(x_{1},x_{2},...x_{n};\theta)$ 。虽然在很多非正式场合概率和似然经常被混为一谈，但是这两个概念其实是不同的。概率表达的是给定模型参数，观察到样本的概率，而似然则表达的是给定观测值后描述分布的参数是否合理。因此对于上述的问题，其实更合理的表达应为 $max L(X;\theta )$ ,其中 $L$ 表示的就是likelihood。虽然对于问题的定义很简洁，但是实际操作起来还是有一定的问题。样本的联合概率分布可以表达为： $\prod_{i=1}^{n} P(x_{i};\theta )$ ，其中每个样本在给定参数 $\theta$ 时观测到的概率一定小于1，将多个小概率连乘在实际应用中是非常不稳定的，因此可以利用 $log$ 的性质将前式转化为 $\sum_{i=1}^{n} log(P(x_{i};\theta))$ 。对于优化问题，常常将求最大值转化为求最小值（因为大部分常用的优化解法默认setup都是最小化问题），因此最大似然估计的问题就变