第14章 概率图模型--话题模型

话题模型(topic model)是一族生成式有向图模型,主要用于处理离散型的数据(如文本集合),在信息检索、自然语言处理等领域有广泛应用。隐狄利克雷分配模型(Latent Dirichlet Allocation,简称LDA)是话题模型的典型代表。
我们先来解一下话题模型中的几个概念:词(word)、文档(document)和话题(topic)。具体来说,“词”是待处理数据的基本离散单元,例如在文本处理任务中,一个词是一个英文单词或有独立意义的中文词。“文档”是待处理的数据对象,它由一组词组成,这些词在文档中是不记顺序的,例如一篇论文、一个网页都可看作一个文档;这样的表示方式称为“词袋”(bag-of-words)。数据对象只要能用词袋描述,就可使用话题模型。“话题”表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的概率。
形象地说,如图11所示,一个话题就像是一个箱子,里面装着在这个概念下出现概率较高的那些词。不妨假定数据集中一共包含KN维向量βk(k=1,2,...,K)表示话题,其中wtRN的第n个分量w_{t,n}表示文档t中词n的词频, \beta_k\in \mathbb R^N的第n个分量\beta_{k,n}表示话题k中词n的词频。
在现实任务中可通过统计文档中出现的词来获得词频向量w_i(i=1,2,...,T),但通常并不知道这组文档谈论了哪些话题,也不知道每篇文档与哪些话题有关。LDA从生成式模型的角度来看待文档和话题。具体来说,LDA认为每篇文档包含多个话题,不妨用向量\theta_t\in \mathbb R^K表示文档t中所包含的每个话题的比例,\theta_{t,k}即表示文档t中包含话题k的比例,进而通过下面的步骤由话题“生成”文档t<script type="math/tex">t</script>:
(1)根据参数为\alpha的狄利克雷分布随机采样一个话题分布\theta_t;
(2)按如下步骤生成文档中的N个词:
图11 LDA的文档生成过程示意图

这里写图片描述

(a)根据\theta_t进行话题指派,得到文档t<script type="math/tex">t</script>中词的话题z_{t,n}
(b)根据指派的话题所对应的词频分布\beta_k随机采样生成词。
图11演示出根据以上步骤生成文档的过程。显然,这样生成的文档自然地以不同比例包含多个话题(步骤1)文档中的每个词来自一个话题(步骤2b),而这个话题是依据话题比例产生的(步骤2a)。
图12描述了LDA的变量关系,其中文档中的词频w_{t,n}是唯一的已观测变量,它依赖于对这个词进行的话题指派z_{t,n},以及话题所对应的词频\beta_k;同时,话题指派z_{t,n}依赖于话题分布\theta_t,\theta_t依赖于狄利克雷分布的参数\alpha,而话题词频则依赖于参数\eta
图12 LDA的盘式记法图

这里写图片描述

于是,LDA模型对应的概率分布为
p(W,z,\beta,\theta|\alpha ,\eta)=\prod^T_{t=1}p(\theta_t|\alpha)|prod^K_{i=1}p(\beta_k|\eta)(\prod^N_{n=1}P(w_{t,n}|z_{t,n},\beta_k)P(z_{t,n}|\theta_t)),\qquad(41)
其中p(\theta_t|\alpha)p(\beta_k|\eta)通常分别设置为以\alpha\eta为参数的K维和N狄利克雷分布,例如
p(\theta_t|\alpha)=\frac{\Gamma(\sum_k\alpha_k)}{\prod_k\Gamma(\alpha_k)}\prod_k\theta^{\alpha_k-1}_{t,k},\qquad(42)
其中\Gamma(·)是Gamma函数。显然,\alpha\eta是模型式(41)中待确定的参数。
给定训练数据W=\{w_1,w_2,...,w_T\},LDA的模型参数可通过极大似然法估计,即寻找\alpha\eta以最大对数似然
LL(\alpha,\eta)=\sum^T_{t=1}\text{ln}p(w_t|\alpha,\eta).\qquad(43)
但由于p(w_t|\alpha,\eta)不易计算,式(43)难以直接求解,因此实践中常采用变分法来求解近似解。
若模型已知,即参数\alpha\eta已确定,则根据词频w_{t,n}来推断文档集所对应的话题结构(即推断\theta_t,\beta_kz_{t,n}可通过求解)
p(z,\beta,\Theta|W,\alpha,\eta)=\frac{p(W,z,\beta,\Theta|\alpha,\eta)}{p(W|\alpha,\eta)}.\qquad(44)
然而由于分母上的p(W|\alpha,\eta)难以获取,式(44)难以直接求解,因此在实践中常采用吉布斯采样或变分法进行近似推断。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值