LDA数学八卦笔记

前言

此博客是个人LDA学习总结中的一篇。用来记录LDA数学八卦的阅读笔记。


一 、神奇的Gamma函数

Gamma函数 Γ ( x ) \Gamma(x) Γ(x)形式复杂,起源于哥德巴赫 n ! n! n!数列插值的研究。并且为了使得 B e t a Beta Beta函数表示简便,使得 Γ ( n ) = ( n − 1 ) ! \Gamma(n) = (n-1)! Γ(n)=(n1)!

Gamma函数具有很大的魅力。比如(1) 由它定义了分数阶导数。(2)它和黎曼函数有联系。(3)它和欧拉常数有联系。等等

Gamma分布与泊松分布、二项分布、Beta分布有重要联系。我们可以通过:(1)二项分布和Beta分布关系恒等式。(2)二项分布的极限是泊松分布。进而推出Gamma分布。

该节的重要知识点关系可由下图表示:
在这里插入图片描述

二、认识Beta/Dirichlet分布

作者在此小结构造了4个游戏。深入浅出讲解了Beta分布Dirichlet分布。

四个游戏分别为:

1、Beta分布游戏

在这里插入图片描述
经过推导,我们得到分布为
f ( X ( k ) ) = B e t a ( X ( k ) ∣ α , β ) = Γ ( α + β ) Γ ( α ) + Γ ( β ) x α − 1 ( 1 − x ) β − 1 f(X_{(k)})=Beta(X_{(k)}|\alpha, \beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)+\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(X(k))=Beta(X(k)α,β)=Γ(α)+Γ(β)Γ(α+β)xα1(1x)β1

参数 α , β \alpha, \beta α,β的物理意义是伪计数,如下图所示:

在这里插入图片描述

  • α = k \alpha=k α=k: 落在 [ 0 , x ) [0, x) [0,x)区域的数的个数加一。
  • β = n − k + 1 \beta=n-k+1 β=nk+1: 落在( x + Δ x , 1 ] x+\Delta x, 1] x+Δx,1]的数的个数加一。

B e t a ( X a ∣ α , β ) Beta(X_a|\alpha, \beta) Beta(Xaα,β)分布的物理意义:从 U n i f o r m ( 0 , 1 ) Uniform(0,1) Uniform(0,1)中采样 α + β − 1 \alpha+\beta-1 α+β1个数,第 α \alpha α大数所在位置 X 1 X_1 X1的分布。

根据 B e t a ( k , n − k + 1 ) Beta(k, n-k+1) Beta(k,nk+1)分布的物理含义,我们也很容易证明二项分布的重要恒等式:

在这里插入图片描述


2、Beta-Binomial共轭分布游戏

在这里插入图片描述

将这个游戏还原为第一个游戏,易求出分布:

P ( X ( k ) ∣ Y 1 , Y 2 , . . . , Y m ) = B e t a ( X ( k ) ∣ α + m 1 , β + m 2 ) P(X_{(k)}|Y_1, Y_2, ..., Y_m)=Beta(X_{(k)}|\alpha+m_1, \beta+m_2) P(X(k)Y1,Y2,...,Ym)=Beta(X(k)α+m1,β+m2)

这也引出Beta-Binomial共轭:

B e t a ( X ∣ α , β ) + B i n o m C o u n t ( m 1 , m 2 ) = B e t a ( X ∣ α + m 1 , β + m 2 ) Beta(X|\alpha, \beta)+BinomCount(m_1, m_2) = Beta(X|\alpha+m_1, \beta+m_2) Beta(Xα,β)+BinomCount(m1,m2)=Beta(Xα+m1,β+m2)

即:(1)先验分布为Beta分布。(2)数据分布为二项分布。 则后验分布为Beta分布


3、Dirichlet分布游戏

在这里插入图片描述
经过推导,我们可以得到 ( X ( k 1 ) , X ( k 1 + k 2 ) ) (X_{(k_1)}, X_{(k_1+k_2)}) (X(k1),X(k1+k2))的联合分布等价为:

f ( x 1 , x 2 , x 3 ) = D i r ( x 1 , x 2 , x 3 ∣ α 1 , α 2 , α 3 ) = Γ ( α 1 + α 2 + α 3 ) Γ ( α 1 ) Γ ( α 2 ) Γ ( α 3 ) x 1 α 1 − 1 x 2 α 2 − 1 x 3 α 3 − 1 f(x_1, x_2, x_3) = Dir(x_1, x_2, x_3|\alpha_1, \alpha_2, \alpha_3)=\frac{\Gamma({\alpha_1+\alpha_2+\alpha_3})}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_3)}x_1^{\alpha_1-1}x_2^{\alpha_2-1}x_3^{\alpha_3-1} f(x1,x2,x3)=Dir(x1,x2,x3α1,α2,α3)=Γ(α1)Γ(α2)Γ(α3)Γ(α1+α2+α3)x1α11x2α21x3α31

其中: x 1 + x 2 + x 3 = 1 x_1 + x_2 + x_3 = 1 x1+x2+x3=1. 引入 x 3 x_3 x3是为了表达式方便, 3维狄利克雷分布参数 x \mathbf{x} x存在于2维单纯性上

同样 α 1 , α 2 , α 3 \alpha_1, \alpha_2, \alpha_3 α1,α2,α3。物理意义为伪计数,如下图所示:

在这里插入图片描述

  • α 1 = k 1 \alpha_1=k_1 α1=k1: 落在[0, x_1)区域的数的个数加一。
  • α 2 = k 2 \alpha_2=k_2 α2=k2: 落在 [ x 1 + Δ x , x 1 + Δ x + x 2 ) [x_1+\Delta x, x_1+\Delta x + x_2) [x1+Δx,x1+Δx+x2)区域的数的个数加一。
  • α 3 = n − k 1 − k 2 + 1 \alpha_3=n-k_1-k_2+1 α3=nk1k2+1: 落在 [ 1 − x 3 , 1 ] [1-x_3, 1] [1x3,1]区域的数的个数加一。

D i r i c h l e t ( X 1 , X 2 , X 3 ∣ α 1 , α 2 , α 3 ) Dirichlet(X_1, X_2, X_3 | \alpha_1, \alpha_2, \alpha_3) Dirichlet(X1,X2,X3α1,α2,α3)的物理意义: U n i f o r m ( 0 , 1 ) Uniform(0,1) Uniform(0,1)中采样 α 1 + α 2 + α 3 − 1 \alpha_1+\alpha_2+\alpha_3-1 α1+α2+α31个数,以第 a 1 a_1 a1大数和第 a 1 + a 2 a_1+a_2 a1+a2大的两个数为分割点将[0,1]分割为3段。前两条线段长度 X 1 , X 2 X_1, X_2 X1,X2的联合分布。


4、Dirichlet-Multinomail共轭游戏

在这里插入图片描述

注: 原文 p p p的意义应该定义错了,其定义的是位置,应该是线段长度才对。

同样,将这个游戏还原为第3个游戏,易求出分布为:

P ( p → ∣ Y 1 , Y 2 , . . . , Y m ) = D i r i c h l e t ( p → ∣ α 1 + m 1 , α 2 + m 2 , α 3 + m 3 ) P(\overrightarrow{p}|Y_1, Y_2, ... ,Y_m)=Dirichlet(\overrightarrow{p} | \alpha_1+m_1, \alpha_2+m_2, \alpha_3+m_3) P(p Y1,Y2,...,Ym)=Dirichlet(p α1+m1,α2+m2,α3+m3)

这引出了Dirichlet-Multinomial共轭
在这里插入图片描述

即:(1)先验为狄利克雷分布:
在这里插入图片描述
(2)数据分布为多项分布:
在这里插入图片描述
则后验同样为狄利克雷分布。


5、期望估计

D i r ( p → ∣ α → ) Dir(\overrightarrow{p}|\overrightarrow{\alpha}) Dir(p α ), 期望为:
在这里插入图片描述
这从物理意义上也很好理解, p i p_i pi表示每一段的长度, α i \alpha_i αi为落在该段的数的个数,自然是正比关系。


三、MCMC和Gibbs Sampling

该节说明了如何进行非常见分布的采样, 结合代码理解:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值