Topic Model

最新推荐文章于 2023-02-16 09:07:24 发布

后来者xq

最新推荐文章于 2023-02-16 09:07:24 发布

阅读量1k

点赞数

分类专栏：数据挖掘文章标签： Topic Model LDA

本文链接：https://blog.csdn.net/houlaizhexq/article/details/39781861

版权

1. 文本建模

我们平时所见的文档都是一个个词语构成的，但是在理解文档的时候，我们需要考虑文档主题，但是如果每个文档都需要人工理解的话代价太高，因此就产生了文本建模。文本建模的主要目的是追问我们所观察的语料库中的文本次序是怎样生成的。然后发现蕴藏于其中的主题，主题间的联系，以及主题随时间的演变，最后完成文档的自动标注。人类所产生的文档都可以看作是一个上帝掷骰子所产生的，我们看到只是游戏的结果即产生的文档，因此在文本建模中我们想要做的就是知道掷骰子的规则。也就是我们需要知道两个问题： 1）上帝都有什么样的骰子。 2）上帝抛骰子的规则。转化到建模中：第一个问题就是模型中都有哪些参数，第二个问题就是按照什么顺序产生文档。

2. Unigram Model

这是最简单的模型，思想也很简答，就是词典中总共有V个单词，产生过程如下：

1）  上帝只有一个骰子，总共有V个面，每个面对应一个单词；

2）  每抛一次骰子，产生一个面，就将这个面对应的单词放到文档中，这样有n个单词的文档，就掷骰子n次。

这样文档产生就遵从一个多项分布，如下图，其中p为各个面的概率向量

最低0.47元/天解锁文章

后来者xq

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Topic Model

1. 文本建模我们平时所见的文档都是一个个词语构成的，但是在理解文档的时候，我们需要考虑文档主题，但是如果每个文档都需要人工理解的话代价太高，因此就产生了文本建模。文本建模的主要目的是追问我们所观察的语料库中的文本次序是怎样生成的。然后发现蕴藏于其中的主题，主题间的联系，以及主题随时间的演变，最后完成文档的自动标注。人类所产生的文档都可以看作是一个上帝掷骰子所产生的，我们看到只是游戏的
复制链接

扫一扫