CTM 模型是 LDA 模型的一种改进模型,它从 Logistic Normal 分布中提取隐含主题。
CTM 的图形表示如图 1 所示。
其中,图 1 中空心点表示隐含变量;实心点表示可观察 值;矩形表示重复过程。大矩形表示从 Logistic Normal 分布中为文档集合中的每个文档$d$反复抽取主题分布$\eta_d$;小矩形表从主题分布中反复抽样产生文档$d$的词( $\{w_1,w_2,\cdots,w_n\}$ )。
给定一个文档集合 $D$ ,包含 M 个文档和 V 个不同的词。 每个文档 $d$ 包含一个词序列$\{w_1,w_2,\cdots,w_n\}$。在集合 $D$ 对应的 CTM 模型中,假设主题数目固定为 $k$ ,则一个文档 $d$ 的产生可以表示为以下 2 个过程:
(1) 从一个 Logistic Normal 分布 $p(\eta |\mu ,\Sigma )$ 中随机选择一个 $k$ 维向量 $\eta_d$ ;
(2) 根据特定的主题比例对文档 $d$ 的词反复抽样,得到 $p(w_d|\eta_d,\beta)$ ,其中 $\mu$ 是 $k$ 维的均值向量,$\Sigma$ 是 $k \times k$的协方差矩阵。
Published at 12:05 CST, FEB 24 • 956+52 views
欢迎加入我爱机器学习QQ14群:336582044
微信扫一扫,关注我爱机器学习公众号