首先抛出贝叶斯推断(Bayesian inference):
其中
代表一种假设。
其中
代表一种观察结果。
称
为先验概率,是在还没有观测
的情况下,
自身的概率。
称
为后验概率,表示在观察到了
的情况下,
的条件概率。
称
为似然函数(不要叫似然概率),其中C为常数,因为似然函数的绝对数值没有意义。
称
为证据因子(model evidence),有时也会称为边缘似然。
每次从书本上看到这样的定义,是似懂非懂的,这些词到底是什么意思?
举例西瓜书里“瓜熟蒂落”的例子:
- 首先要理解“瓜熟”是“因”,“蒂落”是“果”
- 其次要理解“瓜熟”并不一定会“蒂落”(就是那么顽强),而“蒂落”了也并不一定“瓜熟”(被熊孩子掰下来了)
- 也就是说一切都有概率存在。
代入到贝叶斯公式中,
为瓜熟,
为蒂落,然后可以考虑如下定义:
是先验概率。作为“因”,瓜熟有自己的固有概率,这就叫“先验”。
是后验概率。当观察到了“果”然后推算“因”的条件概率。
是似然函数。由“因”而导致“果”的可能性。
最后
被称为证据因子。当然它本身作为“因”的时候也可以看做是“蒂落”的先验概率,但在本公式讨论范围中,它是“果”。
特别的,关于似然函数
:
其实在上述西瓜例子里,
就是一个由“因”到“果”的条件概率,那干嘛要乘上一个常数C,然后称之为似然呢?
概率probability和似然likelihood从英语语境中的是可以互换的,但概率有更严格的数学定义。
在机器学习的任务之中,所谓的“因”实际上是参数。因为机器学习的任务,是把参数当成“因”,把训练数据当成“果”,通过训练数据来学习参数。而参数并不是事件,不符合概率的严格定义,因此对于某一参数产生实际数据情况的可能性,只能称之为“似然”。
本内容参考了:
https://www.zhihu.com/question/24261751
https://www.zhihu.com/question/54082000