LDA可以看做如何由单词生成主题,生成的过程分为两步,首先,将每一篇文档视为多个主题在单词上的分布,也就是每篇文档是由多个主题按照不同的比例混合而成,而每个话题可以由代表性的词语来表示,比如,雾霾这个话题,与其相关的词语有北京,PM2.5,呼吸等,具有相同分布的文档统计出来有多少,这个数目又满足一定的分布,这个分布就是Dirichlet分布;接下来按分布概率模型(参数确定参考Gibbs Sampling)选定一个主题,再在每篇文档的这个主题中选择一个单词(按Multinormal分布模型),所有选择的单词组成了这个话题。
LDA主题模型小结
最新推荐文章于 2023-11-03 18:05:44 发布