关于最大似然与交叉熵损失函数和最小二乘法的思考

最新推荐文章于 2024-07-20 16:13:15 发布

luchi007

最新推荐文章于 2024-07-20 16:13:15 发布

阅读量9.5k

点赞数 6

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u010223750/article/details/52747895

版权

引言

渣硕学习机器学习也有一段日子了，平时也是把最大似然、交叉熵、最小二乘法当做最常见的方法用了，久而久之，已经不太关注其来源。最近师兄们在忙着找工作，然后其中一个X姓师兄就在组会上提出说面试中问到为什么logistic回归的损失函数使用到的交叉熵而不是最小二乘，突然一下子懵逼了，平时使用的最多的方法，包括在神经网络中也是使用的是交叉熵的方法，也习惯了其所以然，却没有考虑过其之所以然的问题，这就很尴尬了。师兄说了一些原因，归咎起来，有几点：1，交叉熵方法更多的是用于分类，而最小二乘更多的是用于回归；1，方便计算。确实有这些方面的原因，后来回来之后，自己仔细思索了一下，回想起研一开始看过的为数不多的几集Andrew NG的斯坦福课程视频，突然有了些灵感，也觉得有些心得分享一下（PS:大神请让道，数学符号可能有些许不规范，在此为本渣硕的数学功底又捏了一把汗）。

从极大似然说去

极大似然是机器学习里面最基础的概念了，就轻微的再复述一下：
假设X的概率分布满足一个分布 $f(x;\theta)$ ,也就是在给定 $\theta$ 的情况下，x的分布情况，给定一串观测结果 ${x_{1},x_{2}...x_{n}}$ ，我们现在是要估计参数 $\theta$ ，使得 $P(\theta | X=x_{n})$ 最大，根据贝叶斯公式 $P(A|B)=P(B|A) \cdot P(A)$ 我们可以通过使 $P( X=x_{n} | \theta )$ 最大来实现，这里 $|$ 并不严格指的是条件概率，而是在给定的 $\theta$ 的情况下， $P(X=x_{n})$ 的概率。而这个式子就是似然函数 $\iota(\theta)$ 。通过极大化似然函数，然后求取参数 $\theta$ 就能得到模型结果。