Dirichlet分布及其属性
Dirichlet分布
在概率统计中,Dirichlet分布通常表示为,是一个以正实数
的向量为参数的连续多变量概率分布族。这是Beta分布的多元推广。在贝叶斯统计中,狄氏分布很多情况下可作为先验分布,其实Dirichlet分布是类别分布和多项分布的共轭先验。
狄利克雷分布向无限维度的推广便是狄利克雷过程。
Categorical分布
分类分布(有时也被不确切地称为“离散分布”或“多项分布”)从K个概率中的一个来描述事件的发生概率。参数值必须在0、1之间,它们的和为1。分类分布是伯努利分布向多类随机变量的推广。
在分布的表达式中,令采样空间是有限的整数序列。作为标签,这些整数的值并不是重要的,他们可以是{0,1,…,K-1}或{1,2,…,K}或者其他任意值。为了方便,这里我们使用{1,2,…,K}。
概率密度函数为:
表示元素
发生的概率并且
。
另外一种更复杂但利于数学运算的表达式:
表示:如果
取值为1,否则为0.
严格意义上,分类分布可以看做是多项式分布的一种特殊形式(n=1)。
Dirichlet分布是分类分布和多项分布的共轭先验,这意味着我们可以给分类分布的未知参数一个服从Dirichlet分布的先验分布。然后,这个参数的后验分布(结合观测数据知识后)也是个Dirichlet分布。这样我们便可以根据每次新的观测值不断的更新参数的分布模型。形式上,解释如下:
假设模型:
我们有:
在给定分类分布的N个抽样集时,可以利用这种关系来估计它的参数。此时: