我们用搜索的时候,输入关键词 ,这就是一个query,然后搜索引擎要返回匹配query的文档给你,但是一个字一个字的匹配可能是不行的。一个是因为word可能会有不同的意思,其实不一样的word也可能是用户想要的,所以LSA(Latent Semantic Analysis) 被提出来了[1]。它将documents和terms映射到latent semantic space。它使用的是SVD分解,找的是term和document之间的关系(term-document矩阵)。输入是为term在每个document中出现的次数,然后进行SVD分解。这样的话,文档之间的相似以及文档和查询之间的相似就可以在见效的latent space representation中估计出来。这种方法可行的原因是,文档中有词出现的频数一样,那两个文档就是相似的。
这种方法的缺点是:统计学基础不够扎实(不了解),所以改进为PLSA (Probability Latent Semantic Analysis)是(aspect model),能够处理一词多义、词性问题,主要的特点就是使用了生成模型,首先提出了:
P(d,w) = P(d)P(w|d),
P(w|d) = \sum_{z \in Z} P(w|z)P(z|d)。
主要思想是:一个document有多个topic,将一个文档中的每个单词看做是mixture model(多个topic的分布)中的一个sample。不过这个没有在document层上给出model。在生成的时候,自己想办法确定P(z|d)。
之后提出了LDA,就是多了先验的知识。
PLSA与LDA有效的原因:
Reference:
【1】 S. Deerwester, S. Dumais, T.Landauer, G. Furnas, and R. Harshman. Indexing by latentsemantic analysis. Journal of the American Society of Information Science, 41(6):391–407,1990.
【2】 T. Hofmann. Probabilistic latentsemantic indexing. Proceedings of the Twenty-Second Annual InternationalSIGIR Conference, 1999.
【3】 T. Griffiths and M. Steyvers. Aprobabilistic approach to semantic representation. In Proceedings of the24th Annual Conference of the Cognitive Science Society, 2002.
【4】 Blei, D. M., Ng, A. Y., &Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine LearningResearch, 3, 993-1022.
【5】 M. Steyvers and T. Griffiths.Probabilistic topic models. In T. Landauer, D.S. McNamara, S. Dennis, andW. Kintsch, editors, Handbook of Latent Semantic Analysis. Erlbaum, 2007.