![c2ee4782611e82bfb174290afc3c25f7.png](https://i-blog.csdnimg.cn/blog_migrate/a6d670e9bf9c648ac6118323c3814fc2.png)
Motivation:
Cross entropy是计算机视觉算法中重要的概念,在一般分类任务和人脸识别领域常被用作损失函数,它的表达形式并不复杂,但是直观理解却有一定难度,学习好算法,需要对这些基础内容有深刻理解。作者阅读过许多关于Cross entropy的blog,有人对最大似然估计和Cross entropy的关系进行了分析,大多在关键点一笔带过,没有给予完整说明。于是作者在学习了一段时间后,将个人理解整理成这篇读书笔记。
交叉熵Loss被使用的非常频繁,对初学者而言,cross entropy是一个不好理解的概念,没有MSE这种用于回归的Loss直观。理解cross entropy一般有三种途径,一种是从信息熵,还有一种是最优化,而本文是从最大似然估计的角度进行理解,所需知识在本科的概率论与数理统计这门课程就已经学过。
最大似然估计是参数估计的方法。这个名称应该是舶来品,英文名Maximum likelihood estimation,第一次看到似然这个概念很懵逼,中文“似然”这个词也是很生僻,直译为最大可能性估计都比叫似然好理解(当然这个名字其实也并不严谨)。为了方便理解,举一个简单的例子:
假设扔了3次硬币,结果是{正,正,反},如果硬币是标准的,那么正反两面的概