gensim工具包

原创 2017年01月02日 21:49:30

gensim是一个python的主题模型工具包,可以用来计算文本相似度。

原理

    1、文本相似度计算的需求始于搜索引擎。

    搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。

    2、主要使用的算法是tf-idf

    tf:term frequency词频

    idf:inverse document frequency倒文档频率

    主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

    第一步:把每个网页文本分词,成为词包(bag of words)

    第三步:统计网页(文档)总数M。

    第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)

    第四步:重复第三步,计算出一个网页所有词的tf-idf 值。

    第五步:重复第四步,计算出所有网页每个词的tf-idf 值。

    3、处理用户查询

    第一步:对用户查询进行分词。

    第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。

    4、相似度的计算

    使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。

   

    官方主页:http://radimrehurek.com/gensim/index.html

    github代码页:https://github.com/piskvorky/gensim


版权声明:本文为博主原创文章,未经博主允许不得转载。

文本分析--Gensim概述

# -*-coding:utf-8-*-import gensim""" Getting Started with gensim Gensim是一款开源的第三方Python工具包,用于...
  • kevinelstri
  • kevinelstri
  • 2017年04月12日 17:51
  • 796

主题模型Python工具包:Gensim

Gensim是一个相当专业的主题模型Python工具包。在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。评论和商品描述的相似度越高,说明评论的用...
  • aihali
  • aihali
  • 2015年04月14日 16:46
  • 812

Python中gensim库word2vec的使用

Python中gensim库word2vec的使用: pip install gensim安装好库后,即可导入使用: 1、训练模型定义 [python] view plain copy...
  • angus_monroe
  • angus_monroe
  • 2017年08月09日 16:23
  • 1134

64位win&python2.7下gensim环境搭建

在语义分析工作中,gensim算是一个很强大的工具,它配合nltk使用可以干非常多的事情,今天安装了下gensim,可能由于安装的是64位的,过程有点曲折,下面把最后的安装方法记录一下,希望给需要的人...
  • shiliangdn
  • shiliangdn
  • 2015年11月09日 14:14
  • 2967

gensim版word2vec的使用

1.引入模块 import gensim 2.准备语料 每个文本一个一个list,再组合成一个大的list,也可以是生成器,相关的词汇要先分词 sentences = [['第一','个', '文本'...
  • qq_26972303
  • qq_26972303
  • 2016年12月31日 10:24
  • 1201

虐死个人的gensim安装

前前后后安装了整整一天半左右吧。好吧,作为我这种小透明小菜鸟
  • u013868434
  • u013868434
  • 2014年11月01日 09:12
  • 2001

【gensim中文教程】开始使用gensim

原文链接介绍了基本概念,以及理解和使用gensim的基本元素,并提供了一个简单的例子。...
  • DuinoDu
  • DuinoDu
  • 2017年08月03日 14:08
  • 782

gensim-5个学习阶段

最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。 也许nlp在国内普及的时间还不是很长,绝大多数资料都来自nltk和gensim的官网,国内最多的例子止于演示一下nlt...
  • jdbc
  • jdbc
  • 2015年11月19日 11:08
  • 885

文本分析-gensim

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from gensim import corp...
  • weiyudang11
  • weiyudang11
  • 2016年08月24日 15:08
  • 810

gensim试用

gensim试用 gensim: http://radimrehurek.com/gensim/index.html Gensim is a free Python framework d...
  • largetalk
  • largetalk
  • 2013年08月28日 12:22
  • 23023
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:gensim工具包
举报原因:
原因补充:

(最多只允许输入30个字)