gensim工具包

原创 2017年01月02日 21:49:30

gensim是一个python的主题模型工具包,可以用来计算文本相似度。

原理

    1、文本相似度计算的需求始于搜索引擎。

    搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

    2、主要使用的算法是tf-idf

    tf:term frequency词频

    idf:inverse document frequency倒文档频率

    主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

    第一步:把每个网页文本分词,成为词包(bag of words)

    第三步:统计网页(文档)总数M。

    第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)

    第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

    第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

    3、处理用户查询

    第一步:对用户查询进行分词。

    第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

    4、相似度的计算

    使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

   

    官方主页:http://radimrehurek.com/gensim/index.html

    github代码页:https://github.com/piskvorky/gensim


版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

主题模型Python工具包:Gensim

Gensim是一个相当专业的主题模型Python工具包。在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用...
  • aihali
  • aihali
  • 2015年04月14日 16:46
  • 689

gensim2.3.0.tar.gz

  • 2017年08月05日 21:18
  • 16.38MB
  • 下载

python工具gensim

  • 2016年12月02日 09:13
  • 4.26MB
  • 下载

主题模型TopicModel:通过gensim实现LDA

http://blog.csdn.net/pipisorry/article/details/46447561使用python gensim轻松实现lda模型。gensim简介Gensim是一个相当专...

Gensim计算两个文档相似度(python)

  • 2015年09月19日 11:40
  • 244KB
  • 下载

gensim-2.1.0-cp36-cp36m-win_amd64.whl

  • 2017年06月14日 10:56
  • 5.21MB
  • 下载

基于gensim模块的中文句子相似度计算工具

概述 中文句子相似度的计算有很多模型,我们使用 TFIDF , LSI 与 LDA 模型 这3中模型更加适用于文章相似度的计算 对于句子来说,长度太短,正确率相对不高 算法及代码 具体这几种模型的...

基于gensim的文本主题模型(LDA)分析

  • 2016年01月05日 20:52
  • 19.53MB
  • 下载

gensim0.13.1 64bit win10 py2.7

  • 2016年08月01日 11:05
  • 4.2MB
  • 下载

python 环境下gensim中的word2vec的使用笔记

centos 7, python2.7, gensim (0.13.1)语料:http://211.136.8.18/files/10940000015A9F94/mattmahoney.net/dc...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:gensim工具包
举报原因:
原因补充:

(最多只允许输入30个字)