利用Python gensim基于中文语料建立LSA隐性语义模型

传统词向量空间模型
对语料库中每个文档进行分词后,将生成一个词典。每个文档对应一个与词典长度一致的向量。若文档中出现某个词,则向量中相应的项目非零。下标index通过将词语输入Hashing函数获得,值一般取该词的TF-IDF。

TF: 词频,在长度为n的文档中某个词出现k次,则有TF=k/n
IDF: 逆文档频率,出现某个词的文档数量d,语料库中一共有N个文档,有IDF=log(N/d).
一般而言如果某个词在整个语料库的每个文档中都出现,例如“这”“那么” 等常用词,对于文本分类的重要性非常弱,使用IDF进行归一化处理的目的是消除停用词(其IDF非常低)的影响。

通过上述方法,将文档映射到向量空间之后,计算当前query与语料库中每个文档的余弦相似度并排序,即可给出与当前query最相似的N个文档。
此方法的一个缺陷是,判断两个文档相似是基于是否出现相同的词语,对于一词多义、近义词等情况无法很好地处理。例如,用户搜索“帝都”,显然是希望返回北京的相关信息,但可能只会返回包含“帝都”这一词语的结果,显然“北京”的结果也应该是用户希望看到的。


LSA的主要思想,是利用线性代数里面的SVD奇异值分解,以便基于语料库归纳出若干主题(topic),同时给出每个
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值