1. 文本建模
我们平时所见的文档都是一个个词语构成的,但是在理解文档的时候,我们需要考虑文档主题,但是如果每个文档都需要人工理解的话代价太高,因此就产生了文本建模。文本建模的主要目的是追问我们所观察的语料库中的文本次序是怎样生成的。然后发现蕴藏于其中的主题,主题间的联系,以及主题随时间的演变,最后完成文档的自动标注。 人类所产生的文档都可以看作是一个上帝掷骰子所产生的,我们看到只是游戏的结果即产生的文档,因此在文本建模中我们想要做的就是知道掷骰子的规则。也就是我们需要知道两个问题: 1)上帝都有什么样的骰子。 2)上帝抛骰子的规则。 转化到建模中:第一个问题就是模型中都有哪些参数,第二个问题就是按照什么顺序产生文档。
2. Unigram Model
这是最简单的模型,思想也很简答,就是词典中总共有V个单词,产生过程如下:
1) 上帝只有一个骰子,总共有V个面,每个面对应一个单词;
2) 每抛一次骰子,产生一个面,就将这个面对应的单词放到文档中,这样有n个单词的文档,就掷骰子n次。