深入浅出LDA(2)

0. 阅读说明

与LDA紧密相关的必要且最小知识集合为博文的正文。凡是灰色框中的内容为拓展和补充内容,直接跳过并不会影响你的理解。灰色框指的是如下形式的段落:

这是一个灰色框示意段落
这部分内容为补充性内容,直接跳过并不会影响你的理解

1 β 分布

1.1 β 分布

β 分布的概率密度为:

f(x)=1B(α,β)xα1(1x)β1,0,x[0,1]others(1.1)

其中:
B(α,β)=10xα1(1x)β1dx=Γ(α)Γ(β)Γ(α+β)(1.2)

图像:
这里写图片描述

1.2 如何更好的理解 β 分布?

这里写图片描述

此时 X(k) 的分布即为 β 分布

1.2.1 第一种理解(很流行但是不推荐)

这种理解方式,我不推荐,尽管网上“争相抄袭”

以下内容来自:
LDA-math-认识Beta/Dirichlet分布(1)
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述


1.2.2 第二种理解(推荐)

回顾 beta 分布:
β 分布的概率密度为:

f(x)=1B(α,β)xα1(1x)β1,0,x[0,1]others(2.3.1)

其中:
B(α,β)=10xα1(1x)β1dx=Γ(α)Γ(β)Γ(α+β)(2.3.2)


假设一枚硬币正面朝上的概率为 x ,则反面朝上的概率为1x,现在我投掷100次,30次朝上,于是我会认为,x=0.3. 现在我再做一组试验,投掷100次29次朝上,这一次我认为 x2=0.29 ,这样,我不断地一组一组做。我就会得到很多x。

如图所示:
这里写图片描述
横轴为x的取值。纵轴为x取得某一值出现的次数。这条曲线是一条有零点0,1的曲线,因此根据高中的知识,我们就可以设这条曲线为:

f(x)=xα1(1x)β1

但是,这条曲线还不能说是概率密度函数,因为它在定义域上的积分为必为1.为了保证为1我们可以令曲线与x轴围成的面积为 B(α,β) ,这样我们可以构造一个概率密度函数:
f(x)=1B(α,β)xα1(1x)β1,0,x[0,1]others(2.3.1)

B(α,β)=10xα1(1x)β1dx=Γ(α)Γ(β)Γ(α+β)(2.3.2)
即为面积。至于说这个等式右边怎么来的?这里给出以下 三种解答:

解答一:

假设 a=α1,b=β1 并为令b为正整数。那么通过分部积分,可以得到:

B(a,b)=12b(a+1)(a+2)(a+b+1)=Γ(a+1)Γ(b+1)Γ(a+1+b+1)=Γ(α)Γ(β)Γ(α+β)

可以证明,当b不是整数时,在实数域上仍然是良定义的。
如下所示:

解答二:

这里写图片描述

解答三:

这里写图片描述

1.3 β 分布的性质

期望:
这里写图片描述

2. 共轭先验

2.1 共轭先验和共轭分布

这里写图片描述

2.2 β 分布与二项分布的共轭关系

这里写图片描述
这里写图片描述

2.3 伪计数

这里写图片描述

2.4 共轭先验的意义

以后只要我们说:“A的共轭先验是B”,这句话的意思就是说B分布=A分布 × B分布

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值