2.2 多项式变量

2.2 多项式变量

1、基本概念

⼆元变量可以用来描述只能取两种可能值中的某一种这样的量。然而,我们经常会遇到可以取K个互斥状态中的某一种的离散变量,即:

x=(0,0,0,1,0,0)T

注意,这样的向量满足Kk=1xk=1。如果我们用参数k表示xk=1的概率,那么x的分布就是:

p(xμ)=k=1Kμxkk

其中μ=(μ1,μ2...μK)T

可以看出,这个分布是归一化的,即:

xp(xμ)=k=1Kμk=1

并且:

E(xμ)=xp(xμ)x=(μ1,μ2...μK)T=μ

现在考虑一个有N个独立观测值x1,x2,...xn的数据集D。对应的似然函数的形式为:

p(Dμ)=n=1Nk=1Kμxnkk=k=1Kμ(nxnk)k=k=1Kμmkk

为了找到的最大似然解,我们需要关于 μk最大化 lnp(Dμ),并且要限制μk的和必须等于1。这可以通过拉格朗日乘数实现,即最大化:

k=1Kmklnμk+λ(k=1Kμk1)

令关于μk导数为0,得到:

μk=mkλ

将结果代入 μk 的限制条件 kμk=1 中,解得 λ=N,于是我们得到最大似然解:

μMLk=mkN

它是N次观测中,xk=1 的观测所占的⽐例。

2、狄利克雷分布

由上述可知,多项式分布的共轭先验为:

p(μα)k=1Kμαk1k

其中0μk1kμk=1。这⾥, α1,α2,...αk 是分布的参数, α表⽰ (α1,α2,...αk)T 。注意,由于加和的限制,{μk}空间上的分布被限制在K-1维的单纯形(simplex)当中。

概率的归一化形式为:

Dir(μα)=Γ(α0)Γ(α0)...Γ(αk)k=1Kμαk1k

这被称为狄利克雷分布,其中 α0=Kk=1αk

阅读更多
个人分类: PRML
上一篇2.1 二元变量
下一篇Racket 常用方法
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭