关闭

2.2 多项式变量

标签: 机器学习模式识别PRML贝叶斯方法
240人阅读 评论(0) 收藏 举报
分类:

2.2 多项式变量

1、基本概念

⼆元变量可以用来描述只能取两种可能值中的某一种这样的量。然而,我们经常会遇到可以取K个互斥状态中的某一种的离散变量,即:

x=(0,0,0,1,0,0)T

注意,这样的向量满足Kk=1xk=1。如果我们用参数k表示xk=1的概率,那么x的分布就是:

p(xμ)=k=1Kμxkk

其中μ=(μ1,μ2...μK)T

可以看出,这个分布是归一化的,即:

xp(xμ)=k=1Kμk=1

并且:

E(xμ)=xp(xμ)x=(μ1,μ2...μK)T=μ

现在考虑一个有N个独立观测值x1,x2,...xn的数据集D。对应的似然函数的形式为:

p(Dμ)=n=1Nk=1Kμxnkk=k=1Kμ(nxnk)k=k=1Kμmkk

为了找到的最大似然解,我们需要关于 μk最大化 lnp(Dμ),并且要限制μk的和必须等于1。这可以通过拉格朗日乘数实现,即最大化:

k=1Kmklnμk+λ(k=1Kμk1)

令关于μk导数为0,得到:

μk=mkλ

将结果代入 μk 的限制条件 kμk=1 中,解得 λ=N,于是我们得到最大似然解:

μMLk=mkN

它是N次观测中,xk=1 的观测所占的⽐例。

2、狄利克雷分布

由上述可知,多项式分布的共轭先验为:

p(μα)k=1Kμαk1k

其中0μk1kμk=1。这⾥, α1,α2,...αk 是分布的参数, α表⽰ (α1,α2,...αk)T 。注意,由于加和的限制,{μk}空间上的分布被限制在K-1维的单纯形(simplex)当中。

概率的归一化形式为:

Dir(μα)=Γ(α0)Γ(α0)...Γ(αk)k=1Kμαk1k

这被称为狄利克雷分布,其中 α0=Kk=1αk

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:20423次
    • 积分:529
    • 等级:
    • 排名:千里之外
    • 原创:27篇
    • 转载:0篇
    • 译文:6篇
    • 评论:4条
    文章分类
    最新评论