机器学习:主题模型:LSA

原创 2016年05月31日 14:00:12

空间向量模型的缺点

http://blog.csdn.net/pipisorry/article/details/42560331

  • Term-Document矩阵
    这里写图片描述

上图是一个Term-Document矩阵,X代表该单词出现在对应的文件里,星号表示该词出现在查询(Query)中,当用户输入查询”IDF in computer-based information look up” 时,用户是希望查找与信息检索中IDF(文档频率)相关的网页,按照精确词匹配的话,文档2和3分别包含查询中的两个词,因此应该被返回,而文档1不包含任何查询中的词,因此不会被返回。但我们仔细看看会发现,文档1中的access, retrieval, indexing, database这些词都是和查询相似度十分高的,其中retrieval和look up是同义词。显然,从用户的角度看,文档1应该是相关文档,应该被返回。再来看文档2:computer information theory,虽然包含查询中的一次词information,但文档2和IDF或信息检索无关,不是用户需要的文档,不应该被返回。从以上分析可以看出,在本次检索中,和查询相关的文档1并未返回给用户,而无查询无关的文档2却返回给了用户。这就是同义词和多义词如何导致传统向量空间模型检索精确度的下降。


LSA

@@@Indexin By Latent Semantic Analysis (1990;Sccto Deerwesrer)
* LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。LSA的基本思想就是把高维的文档降到低维空间,那个空间被称为潜在语义空间。
* 降维是LSA分析中最重要的一步,通过降维,去除了文档中的“噪音”,也就是无关信息(比如词的误用或不相关的词偶尔出现在一起),语义结构逐渐呈现。相比传统向量空间,潜在语义空间的维度更小,语义关系更明确。

结论

尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时。
LSA对一词多义问题依然没有解决,仅仅解决了一义多词。因为LSA将每一个词表示为潜在语义空间中的一个点,因此一个词的多个意义在空间中对于的是一个点,没有被区分。

版权声明:本文为博主原创文章,未经博主允许不得转载。

关于LSA(Latent Semantic Analysis)主题模型的个人理解

LSA把高维向量空间模型表示中的文档映射到低维潜在语义空间中,在潜在语义空间计算相似性,这个映射通过对词项-文档矩阵SVD分解来实现。...

主题模型TopicModel:LSA(隐性语义分析)模型和其实现的早期方法SVD

LSA and SVD LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。我们知道,在文档的空间向量模型(VSM)中,文档被表示成由特征词出现概率组...

主题模型TopicModel:Unigram、LSA、PLSA模型

http://blog.csdn.net/pipisorry/article/details/42560693主题模型历史Papadimitriou、Raghavan、Tamaki和Vempala在1...

机器学习:主题模型:PLSA

http://blog.csdn.net/pipisorry/article/details/42560877 * 概率潜在语义分析简称pLSA(Probabilisticlatent se...

【机器学习系列】主题模型-LDA浅析

上个月参加了在北京举办SIGKDD国际会议,在个性化推荐、社交网络、广告预测等各个领域的workshop上都提到LDA模型,感觉这个模型的应用挺广泛的,会后抽时间了解了一下LDA,做一下总结: ...

王小草【机器学习】笔记--主题模型LDA

标签(空格分隔): 王小草机器学习笔记笔记整理时间:2016年12月30日 笔记整理者:王小草1. 共轭先验分布1.1 β分布在进入正题之前,先来了解一下beta分布。Γ函数 Γ函数是阶乘在实数上...

关于LSA的相关学习---短文本聚类涉及到的知识,一种主题模型(原载于我的百度空间)

豆瓣上有一篇简单介绍LSA和PLSA的文章 链接http://www.douban.com/note/63275934/,我也已经保存到本地了 【Latent semantic analy...

王小草【机器学习】笔记--主题模型LDA实践与应用

标签(空格分隔): 王小草机器学习笔记笔记整理时间:2016年12月30日 笔记整理者:王小草1. LDA的实现工具在主题模型LDA的理论篇,长篇大幅的公式与推导也许实在烦心,也不愿意自己去写代码实...

【机器学习】主题模型(一):条件概率、矩阵分解

两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让搜索更加智能化。主题模型是对文字隐含主题进行建模的方法,其克服传统信息检索中文档相似度计算方法的缺点...

机器学习--通俗理解LDA主题模型

通俗理解LDA主题模型 0 前言     印象中,最开始听说“LDA”这个名词,是缘于rickjin在2013年3月写的一个LDA科普系列,叫LDA数学八卦...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:机器学习:主题模型:LSA
举报原因:
原因补充:

(最多只允许输入30个字)