利用Python gensim基于中文语料建立LSA隐性语义模型

kim_lo

于 2016-07-07 16:46:07 发布

阅读量7.4k

点赞数 2

分类专栏：数据挖掘自然语言处理资料备份文章标签： python 数据挖掘自然语言处理数据分析 gensim

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lo_cima/article/details/51852519

版权

传统词向量空间模型

对语料库中每个文档进行分词后，将生成一个词典。每个文档对应一个与词典长度一致的向量。若文档中出现某个词，则向量中相应的项目非零。下标index通过将词语输入Hashing函数获得，值一般取该词的TF-IDF。

TF: 词频，在长度为n的文档中某个词出现k次，则有TF=k/n

IDF: 逆文档频率，出现某个词的文档数量d，语料库中一共有N个文档，有IDF=log(N/d).

一般而言如果某个词在整个语料库的每个文档中都出现，例如“这”“那么” 等常用词，对于文本分类的重要性非常弱，使用IDF进行归一化处理的目的是消除停用词（其IDF非常低）的影响。

通过上述方法，将文档映射到向量空间之后，计算当前query与语料库中每个文档的余弦相似度并排序，即可给出与当前query最相似的N个文档。

此方法的一个缺陷是，判断两个文档相似是基于是否出现相同的词语，对于一词多义、近义词等情况无法很好地处理。例如，用户搜索“帝都”，显然是希望返回北京的相关信息，但可能只会返回包含“帝都”这一词语的结果，显然“北京”的结果也应该是用户希望看到的。

LSA的主要思想，是利用线性代数里面的SVD奇异值分解，以便基于语料库归纳出若干主题（topic），同时给出每个

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。