自然语言处理从小白到大白系列（1）Word Embedding之主题模型

最新推荐文章于 2022-10-18 13:39:47 发布

Jamie_Wu

最新推荐文章于 2022-10-18 13:39:47 发布

阅读量696

点赞数

分类专栏：自然语言处理文章标签：主题模型机器学习 LDA PLSA 自然语言处理

本文链接：https://blog.csdn.net/ibelieve8013/article/details/88734380

版权

自然语言处理专栏收录该内容

19 篇文章 5 订阅

订阅专栏

有些同学一提到Word Embedding，马上就想到的是word2vec，glove，fasttext，cBOW，skip-gram，然而却常常忽略最基本的文本嵌入方法，如本文提到的主题模型，包括pLSA，LDA, 还有后面会提到的 MF（matrix factorization）, NMF以及sparse coding等传统的方法。

讲到主题模型，大家普遍觉得是LDA，但是其实前面还有一个模型pLSA，即概率隐语义分析，然而再往前面追溯，就有一个叫潜在语义分析的模型（LSA）。很多同学试图搞懂主题模型，然而经常都是懵逼地来，懵逼地去。因此，我们先给一个比较性感，错了，感性的概念，什么是潜在语义分析？为什么要潜在语义分析？如果我们有一堆文本，每个文本有对应的单词，那么组成一个单词-文本向量矩阵，单词张成的空间表示能够衡量两个文本之间的相似度。然后你会问，这不就行了吗？但是我们无法知道这些文章到底在写什么内容，因此想要知道文本的潜在话题，怎么办？提供两个思路，一：是对单词-文本矩阵进行奇异值分解，以分解后的第一个矩阵作为话题向量空间，第二三个矩阵的乘积，作为文本在话题中的表示；二：通过非负矩阵分解，也可以得到话题向量空间和文本在话题中的表示。总而言之一句话，矩阵分解可以挖掘潜在的话题，由于本文的重点不在这里，不过多讨论这个，只要知道，LDA的前世今生大致来源就可以了。

下面开始讲讲硬的东西，如果没看懂没关系，可能我讲得不清晰，有必要的话后面可以再更新。

我们知道，当我们要写作的时候，是怎么样写成一篇文章的？我们肯定要先确定我们要写作的主题，然后我们写的词，则都是和这个主题相关的（可以看成是从主题中以一定的概率挑选词出来）。

1.pLSA

【这里规定一下符号：w是词，K是主题数量，k是某个主题，d是某篇文档，M是文档总数，对某篇文档，N是这个文档的词数。以上这些符号一定要牢记，不然后面公式看不懂】

有个看起来不像贝叶斯网络的贝叶斯网络图应运而生：（也就是我们刚才说的一个词是如何产生的）

公式来了：

这是某篇文档的某个词的概率，我们得把所有词都考虑到，因此整个语料库的生成概率可以用以下似然函数表示：

其中，p(dm, wn)是在第dm篇文档中，第wn个单词出现的概率，和上文的p(w|d)一致，c(dm,wn)是在第dm篇文档中，wn出现的次数。然后呢，我们看着连乘的形式就很不爽，要加以对数，于是得到了：

现在这个式子，我们来看看，c(dm,wn)是可以数出来的，我们要知道的是dm这篇文章，各个主题的分布是怎么样的即：p(zk|dm),以及第k个主题上，词的分布是怎样的：p(wn|zk)。这样一个似然函数，很容易想到极大似然法，但是遗憾的是，zk是隐变量，那么这里可以用EM算法迭代得到结果。

好了，pLSA就说到这里，重点讲LDA。

2.LDA

下面开始讲LDA，LDA不一样在哪里呢，就是假设了主题分布和某主题的词分布服从了先验狄利克雷分布，这是什么意思呢：在pLSA中，我们认为主题分布p(zk|dm)和词分布 p(wn|zk)就是一个确定的值，我们的目的就是估计出来这个确定的值；而在LDA中，我们假设这两个参数，是不确定的，是服从一定分布的一个变化的东西，这个先验的分布，就是狄利克雷分布，【这里为什么是狄利克雷分布，是由于狄利克雷分布是多项分布的共轭先验分布，后验分布依然是服从狄利克雷分布，简单理解就是在后续要对这个分布更新的时候，计算起来很方便】

LDA也有一个不像贝叶斯网络的贝叶斯网络：

【注意，这里的方框的意思是一对多，上文同】

【符号说明：theta是主题分布，z是某主题，alpha是主题分布的先验参数，ϕ是词分布，beta是词分布的先验参数，M是文档数，N是每个文档的词数，K是主题数】

这里，解释一下这个贝叶斯网络：

根据先验参数alpha，确定一个主题分布theta，再从这个多项式分布中采样一个主题Zij；

根据参数beta的狄利克雷分布中采样一个词分布【这个词分布是主题Zij对应的词分布Phi_ij】

然后再由词分布phi_ij抽样生成词wij.

(这里普遍的疑惑可能是：为什么主题分布Z没有指向词分布phi，不是说词分布是主题分布Zij得来的吗？我的理解是：因为对于主题Zij来说，Zij里面的词汇就那么多，phi和Zij有关系，仅仅是因为从超参数beta采样出来的某个多项分布，把他用在主题Zij上，这个意思，才是“”这句话要表达的，而不是说，主题Zij和词分布phi_ij有依赖关系，这个是没有关系的，词分布仅仅受超参数beta的影响！)