本章主要介绍各种概率分布,包括伯努利分布、Beta分布、狄利克雷分布、高斯分布(重点)、指数族分布和非参数化方法估计的概率分布等。最后简单介绍了KL散度、计算学习理论和VC维的概念。
二元变量
(1) 伯努利分布
考虑一个二元变量 x∈{
0,1} ,然后假设有一个抛硬币的场景与之对应,假设硬币正面向上( x=1 )的概率为 u ,则硬币正面向下(
其中,
如果有多次观测数据 D={ x1,...,xn} ,则有:
用最大似然的方法,可得:
(2) 二项分布
给定数据集规模N的条件下, x=1 的观测出现的数量m的概率分布,被称为二项分布,可以写成:
其中
这个分布对应的均值和方差为:
(3)Beta分布
上面两种分布,当数据样本少时,可能会存在较大误差,因为他们的期望都是概率均值,而观测少时可能期望与这个均值有偏差。
我们希望从贝叶斯的观点看待这个问题,需要引入关于u的先验概率分布 p(u) 。这里,我们希望后验概率保持与二项分布相似的形式,则要求引入的先验概率正比于 u 和
其中
这个分布对应的均值和方差为:
这里 a 和
假设硬币抛N次,有 m 次正面朝上,
显然,此时,后验和先验保持了相似的形式。
这里存在很有趣的现象,这个模型适用于顺序数据的概率预测。如果我们的目标是极可能好滴预测下一次实验的输出,则我们期望预测下面的概率:
现在,假设m和l是先验数据得到的结果,那么,每次新数据出现,如果 x=1 ,则 a 加一,反之
多项式变量
(1)多项式变量
现在考虑变量不止2种状态的情况,假设有K种可能的互斥状态。举个例子,如 x=(0,0,1,0,0,0)T ,这里 x 存在6种可能的状态。对应的分布为:
则有:
现在考虑N个独立观测数据的集合D,对应的似然函数为:
其中
现在我们求解使模型证据最大的参数 u ,因为
求导计算得到:
即N次观测中, xk=1 的观测所占的比例。
(2)多项式分布
我们考虑 m1,...,mK 在参数 u 和观测总数N的条件下的联合分布,则有:
其中
这个分布就是多项式分布
(3)狄利克雷分布
现在考虑多项式分布的参数 { uk} 的一组先验分布,这里和Beta分布的初衷相似,我们还是希望这个先验是共轭的(后验和先验的形式类似),而观察多项式分布可以看到,多项式分布的共轭先验必然如下:
根据这个,设计出归一化概率的狄利克雷分布:
其中
用于多项式分布,则参数对应的后验概率分布为: