序言
这篇文章聊一个老生常谈的问题:贝叶斯公式的理解。看了一圈博客,好多都是强行举例,理解得不够深刻,让人看得云里雾里,无法推广到其他问题上。实际上要建立系统的理解还是得从数学性质出发。
贝叶斯公式:
符号说明:
预知识:
首先,得知道D和θ都是随机变量(值),随机变量本质是一个 映射函数 用来把非实数域映射到实数域,在实数域我们就可以得到随机变量的概率质量/密度函数、分布函数等性质。D是关于观测到的数据的随机变量,比如有一堆数据{x1,x2,...,xn},我们把这些数据都看成是一个个独立的事件,那么D就是一组事件的集合。θ是关于模型参数的随机变量,它代表是事件发生的“条件因素”,比如我们假定一个事件的发生服从某个分布,那我们就可以让θ表示这个分布的参数。
其次,P(.)看成是函数,这个对后面理解比较重要。
最后,P(D|θ)在大部分博客中都指代似然函数,是