gensim工具包

gensim是一个python的主题模型工具包,可以用来计算文本相似度。

原理

    1、文本相似度计算的需求始于搜索引擎。

    搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

    2、主要使用的算法是tf-idf

    tf:term frequency词频

    idf:inverse document frequency倒文档频率

    主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

    第一步:把每个网页文本分词,成为词包(bag of words)

    第三步:统计网页(文档)总数M。

    第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)

    第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

    第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

    3、处理用户查询

    第一步:对用户查询进行分词。

    第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

    4、相似度的计算

    使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

   

    官方主页:http://radimrehurek.com/gensim/index.html

    github代码页:https://github.com/piskvorky/gensim


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值