对LDA理解

最新推荐文章于 2020-10-24 10:14:25 发布

teddybear01

最新推荐文章于 2020-10-24 10:14:25 发布

阅读量749

点赞数

本文链接：https://blog.csdn.net/teddybear01/article/details/12658047

版权

我们用搜索的时候，输入关键词，这就是一个query，然后搜索引擎要返回匹配query的文档给你，但是一个字一个字的匹配可能是不行的。一个是因为word可能会有不同的意思，其实不一样的word也可能是用户想要的，所以LSA（Latent Semantic Analysis）被提出来了[1]。它将documents和terms映射到latent semantic space。它使用的是SVD分解，找的是term和document之间的关系（term-document矩阵）。输入是为term在每个document中出现的次数，然后进行SVD分解。这样的话，文档之间的相似以及文档和查询之间的相似就可以在见效的latent space representation中估计出来。这种方法可行的原因是，文档中有词出现的频数一样，那两个文档就是相似的。

这种方法的缺点是：统计学基础不够扎实（不了解），所以改进为PLSA （Probability Latent Semantic Analysis）是（aspect model）,能够处理一词多义、词性问题，主要的特点就是使用了生成模型，首先提出了：

P(d,w) = P(d)P(w|d),

P(w|d) = \sum_{z \in Z} P(w|z)P(z|d)。

主要思想是：一个document有多个topic，将一个文档中的每个单词看做是mixture model（多个topic的分布）中的一个sample。不过这个没有在document层上给出model。在生成的时候，自己想办法确定P(z|d)。

之后提出了LDA，就是多了先验的知识。

PLSA与LDA有效的原因：

假设一个document内的word是有关联的（我对关联的理解就是，某些单词属于某一个类的，而想要找到的latent就是topic），找到每个document所属于的类别。因为这些字都属于一个主题只是字不一样。所以lda将文档分类，一个文档会有多个类别，那query里的关键字只要属于某些类别，然后找到这种类别的文档就行了，这样找出来的，更可能是用户想要的。

问题1： lda为什么是生成文档？

lda是属于generative model的一类。generative model的公式：P(x,y) = P(x|y) * P(y) （x分类到y中）。lda可以用生成模型进行解释，它是用于分类的。我们相当于对“生成一个文档”来进行建模，因为文档的生成过程中，一定有其latent的topic的，然后每个word以某种概率生成，所以使用生成模型来建模这个过程。所以lda的公式：P(w|d) = P(w|z) * P(z|d) 在一个document。所以生成文档不是说最后目的来生成文档，而是这个生成模型。

问题2： latent含义，题目含义

latent指的是潜在的语义（可以说是topic，词之间的关系）。allocation指的是将word给某个topic，以及document下的topic。

Reference：

【1】 S. Deerwester, S. Dumais, T.Landauer, G. Furnas, and R. Harshman. Indexing by latentsemantic analysis. Journal of the American Society of Information Science, 41(6):391–407,1990.

【2】 T. Hofmann. Probabilistic latentsemantic indexing. Proceedings of the Twenty-Second Annual InternationalSIGIR Conference, 1999.

【3】 T. Griffiths and M. Steyvers. Aprobabilistic approach to semantic representation. In Proceedings of the24th Annual Conference of the Cognitive Science Society, 2002.

【4】 Blei, D. M., Ng, A. Y., &Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine LearningResearch, 3, 993-1022.

【5】 M. Steyvers and T. Grifﬁths.Probabilistic topic models. In T. Landauer, D.S. McNamara, S. Dennis, andW. Kintsch, editors, Handbook of Latent Semantic Analysis. Erlbaum, 2007.