因为写作业!
语言分布评价(LDA)定义
在自然语言处理领域, LDA是隐含狄利克雷分布(Latent Dirichlet Allocation,简称LDA),他是一种处理文档的主题模型。
一个无监督贝叶斯模型,大概率是分类的。一个可以用来做典型的词袋模型。大概类似寻常的贝叶斯模型里的数据换成文字(来自做梦的小鱼 - 简书
所谓的LDA模型,通过大量的文档的训练,总结出主题的单词分布(简称:语料词库),使用的时候,又根据此模型,反算出该文档的主题分布,从而判断该文档主题。
额外知识:主题模型(Topic Model)就是其中用于在一系列文档中发现抽象主题的一种统计模型。隐含狄利克雷分布则是主题建模里最常见的模型之一。
使用正则表达式或基于字典的关键字搜索技术的基于规则的文本挖掘方法。