关于“自然语言处理中主题模型的发展”论文的相关笔记_自然语言处理对单个文本主题的理解-CSDN博客

11.3.2018

（NLP）自然语言处理是研究人与计算机之间用自然语言进行有效通信的各种理论和方法。

自然处理领域中：主题可以看成是词项的概率分布。

主题模型自动分析每个文档，统计文档内的词语，根据统计的信息来断定当前文档含有哪些主题，以及每个主题所占的比例各为多少。

主题模型是对文字中隐含主题的一种建模方法。

主题：主题就是一个概念、一个方面。它表现为一系列相关的词语，用数学语言描述：就是词汇表上词语的条件概率分布。语义关联度强的一些词定义了一个主题。

词项：能够独立地充当语法成分的词。

最初的Bag of words，也叫做“词袋”，在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合，文本中每个词的出现都是独立的，不依赖于其他词是否出现，或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

自然语言处理中，主题可以看成是词项的概率分布。使用主体模型对文档的生成过程进行模拟，再通过参数估计得到各个主体。当以词袋（bag of words）形式表示文档时，其维度可能是数万，但是若指定主题模型的主题个数为K，通过主题模型的训练，最终形成了K个主题，则可以将词项空间中的文档变换到主题空间，得到文档新的表达。由于通常主题的个数K远小于词项的个数，常使用主题模型进行降维。

隐性语义索引：Latent Semantic Idexing，译为隐性语义索引，也可译为潜在语义索引，简称LSI；隐性语义索引，是在信息检索领域提出来的一个概念，是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案，其通过海量文献找出词汇之间的关系，当两个词或一组词大量出现在同一个文档中时，这些词之间就可以被认为是语义相关。

具体链接（有详细论述）：

https://blog.csdn.net/m0_37788308/article/details/78115313?locationNum=5&fps=1

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

期望最大化算法：最大期望算法（Expectation Maximization Algorithm，又译期望最大化算法），是一种迭代算法，用于含有隐变量（hidden variable）的概率参数模型的最大似然估计或极大后验概率估计。EM算法就是这样，假设我们估计知道A和B两个参数，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B也就得到了A。可以考虑首先赋予A某种初值，以此得到B的估计值，然后从B的当前值出发，重新估计A的取值，这个过程一直持续到收敛为止。