自然语言处理（三）主题模型

最新推荐文章于 2024-08-15 12:15:00 发布

banhan9359

最新推荐文章于 2024-08-15 12:15:00 发布

阅读量185

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/Yolanda7171/p/7242372.html

版权

为了解决“一词多义”和“多词一意”的问题，引入“主题”

LDA本质是一个三层贝叶斯网络

1、共轭分布

1、Beta分布是二项分布的共轭先验分布
2、Dirichlet分布是多项分布的共轭先验分布

Dirichlet分布的参数\([\alpha_{1},\alpha_{2},....,\alpha_{n}]\)，一般\(\alpha\)都取一样的值。

\(\alpha=1\quad\) 均匀分布
\(\alpha>1\quad\) 主题分布相等的概率增大
\(\alpha<1\quad\) 某一主题突出的概率增大

2、LDA模型

LDA模型框图如下图所示
这里写图片描述

流程如下：

1、取\(\alpha\),用\(Dir(\alpha)\)采样得到主题分布\(v_{m}\)
2、对\(v_{m}\)采样得到某一主题
3、取\(\beta\),用\(Dir(\beta)\)对每个主题分别采样得到词分布\(\varphi_{k}\)
4、取得到的主题的对应的词分布，
5、在词分布中采一个词