Topic Model

Topic Model

标签(空格分隔): 机器学习


Γ 函数

Γ 函数可以看做是阶乘在实数域上的推广,即:
Γ(x)=+0tx1etdt=(x1)!
性质: Γ(x)Γ(x1)=x1

Beta分布

  • Beta分布的概率密度:
    f(x)={1B(α,β)xα1(1x)β1,0,x[0,1]others

    其中,B为 10xα1(1x)β1dx=Γ(α)Γ(β)Γ(α+β)
  • Beta分布的期望: E(x)=10xf(x)dx=10x1B(α,β)xα1(1x)β1dx=αα+β

共轭先验分布

在贝叶斯决策中,已知先验概率和似然函数,求后验概率,则可以根据贝叶斯公式求得:
P(θ|x)=P(x|θ)P(θ)P(x)P(x|θ)P(θ)
而如果后验概率 P(θ|x) 先验概率P( θ )满足同样的分布律,那么,先验分布和后验分布叫做共轭分布,此时,先验分布叫做似然函数的共轭先验分布
(当变量x是离散的时候叫做分布律,连续的时候叫做概率密度)

伯努利分布的共轭先验是Beta分布

  • 伯努利分布的似然: P(x|θ)=θx(1θ)1x ;
  • 先验函数为: P(θ|α,β)=1B(α,β)θα1(1\theta)β1 ;
  • 则后验概率为: P(θ|x)P(x|θ)P(θ)θ(x+a)1(1θ)(1x+β)1
    后验概率的形式与先验概率的形式是一样的,所以伯努利分布的共轭先验是Beta分布。

从Beta分布Dirichlet分布

从2到K,
* 二项分布推到多项分布;
* Beta分布推到Dirichlet分布。

  • Beta分布的概率密度:

    f(x)={1B(α,β)xα1(1x)β1,0,x[0,1]others

    其中, B(α,β)=Γ(α)Γ(β)Γ(α+β)

  • Dirichlet分布的概率密度:

    f(p|α)={1Δ(α)ΠKk=1pαk1k,0,pk[0,1]others

    其中, Δ(α)=ΠKk=1Γ(αk)Γ(Kk=1αk)

对称的Dirichlet分布

即参数 αi 的值都是相等的。

  • α=1 时,退化为均匀分布;
  • α>1 时, p1=p2=p3=...=pk 的概率增大;
  • α<1 时, pi=1,pi=0 的概率增大

  • 在狄利克雷分布中, αi 是参数,那么参数 αi 对分布有什么影响呢?
    此处输入图片的描述

    • αk<1 时,即所有的参数都取k,小于1,当某个变量趋于0时,分布会取到最大值;
    • αk=1 时,即所有的参数都取1时,分布趋于均匀分布;
    • αk>1 时,即所有的参数都取k,大于1,当自变量取值都相等时,分布会取到最大值。

LDA解释 —— 贝叶斯学派的典型应用

LDA是典型的无监督学习,事先不需要知道label,也不需要知道每个topic具体是什么含义,只需给出topic的数目即可。
Topic Model与聚类、降维的关系。

  • Topic Model可以看做是聚类,即若干个文档在K个话题下的软聚类;
  • Topic Model也可以看做是降维,由原来维度较高的次分布变为维度较低的主题分布,大大降低了特征向量的维度。
    为什么使用多话题呢?
    – 如果语料中存在一词多义和多词一义的问题,如果使用词向量作为文档的特征,一词多义和多词一义会造成基三文档间相似度的不准确性。
    – 所以通过增加主题的方式解决上述问题。一个词可能被映射到多个主题中,多个词可能被映射到某个主题的概率很高。

  • 共有m篇文档,K个主题;

  • 每篇文章(长度为N)都有各自的主题分布(多项分布),该多项分布的参数服从Dirichlet分布,参数为为 α
  • 每个主题都有各自的词分布(多项分布),该多项分布的参数服从Dirichlet分布,参数为 β
  • 对于每篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断的重塑这个随机生成过程,直到m篇文章全部完成上述过程。
    LDA的概率图模型为:
    此处输入图片的描述

    • 其中, α β 为先验分布的参数,一般是需要事先给定,比如取0.1的堆成Dirichlet分布,表示在参数学习结束之后,期望每个文档的主题不会十分集中
    • θ 是每篇文档的主题分布,是长度为K的向量;
    • φk 表示第k个主题的词分布;
    • zij 选择 φzij ,表示由词分布 φzij 确定term,即得到观测值 wij

参数的学习

给定一个文档集合, wm,n 是可以观察到的已知变量, α β 是根据经验给定的先验参数,其他的变量 zm,n,θ,φ 都是未知的隐变量,需要根据观察到的变量来学习估计。则LDA所有变量的联合分布为:
p(wm,zm,θm,Φ|α,β)=ΠNmn=1p(wm,n|φzm,n)p(zm,n|θm)p(θm|α)p(Φ|β)

Gibbs Sampling

吉布斯采样算法的运行方式是每次选取概率向量的一个维度,给定其他维度的变量值采样当前维度的值。不断迭代直到收敛输出待估计的参数。

  • 初始时随机给文本中的每个词分配主题 z(0) ,然后统计每个主题z下出现词t的数量以及每个文档m下出现主题z的数量,每一轮计算 p(zi|zi,d,w) ,即排除当前词的主题分布;
    • 根据其他所有词的主题分布估计当前词分配各个主题的概率;
  • 当得到当前词属于所有主题z的概率分布后,根据这个概率分布为该词采样一个新的主题
  • 用同样的方法更新下一个词的主题,直到发现每个文档的主题分布 θi 和每个主题的词分布 φi 收敛。算法停止,输出待估计的参数 θ φ ,同时每个单词的主题也可以得出
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值