转自学姐的论文内容
潜在语义分析LSA模型
为了克服TF-IDF方法的缺点,潜在语义分析(Latent Semantic Analysis,LSA)[18] [19]模型应运而生并受到比较多关注,为主题模型的后续发展奠定了坚实的思想基础。
该方法存在几点缺陷:不能对于多义词问题给出解决办法;奇异值分解过程缺乏明确物理意义;计算复杂度高,难以应对大数据带来的挑战;通过实验证明,该方法的分解结果中有时会出现负数,数学统计基础不够坚实。
概率潜在语义分析pLSA模型
霍夫曼在这方面迈出了非常重要的一步,他提出了概率潜在语义分析模型pLSA[20], 用概率模型的方式来表达LSA的问题。
pLSA将文档中的每个词语作为一个混合模型的抽样,将每篇文档表示为一个混合元素比例表,从而将文档简化为一个固定主题集合的概率分布。图2-2展示pLSA模型
优缺点:虽然霍夫曼的工作对文本概率模型作用很大,然而它没有在文档层次方面提出概率模型,因此不够完整。在潜在语义分析中,每个文档表示为一个数字序列,导致模型中的参数的个数会随着语料库规模线性增长,进而过度拟合导致严重问题,而且对于如何在训练集范围外为文档分配概率也是个必须面对的难题。
潜在狄利克雷分配LDA模型
Blei等人[7]通过扩展概率潜在语义分析模型得到潜在狄利克雷分配LDA模型,该模型是一个更加完全的离散数据集的生成概率模型。LDA是三层贝叶斯模型,如图2-3。其基本思想是文档由潜在主题的随机混合表示,每个潜在主题以词语的概率分布表示。该模型凸显了词语、文档与潜在语义主题之间的关系。目前该模型在文档建模、文本分类和协同过滤等很多领域得到了广泛应用。
LDA是一个完整定义的生成模型,通过训练主题混合比例克服了pLSA的过拟合问题
层次潜在狄利克雷分配hLDA模型
为了学习数据的主题层次信息,Blei等人在潜在狄利克雷分配的基础上提出了层次潜在狄利克雷分配[8][9]。该模型使用贝叶斯方法,利用嵌套中国餐馆过程生成一个合适的先验,允许任意大的分支结构而且可以适应数据集增长。该模型为数据建立层次树形结构,层次中的每个节点对应一个主题,而主题又是词语的一种分布。文档的生成过程分为三步:第一步是选择一条从根节点到叶子的路径;第二步是重复地沿着该路径抽样主题;第三步从选择的主题中抽样词语。该模型为数据建立层次结构,方便学习数据的主题层次信息,进而能够挖掘出潜在的主题信息,为文本处理、信息挖掘等领域又点亮了一盏明灯