第零步:介绍
终于弄明白了gensim.word2vec怎么玩,说到底word2vec就是用共现矩阵来判断两个词语是不是相关,从而得出两个词语相似度高不高,这话听起来有问题~
但事实就是这样的,不管我们认为这两个词是不是近义词,只要放在一起,这两个词在窗口内经常一起出现,那它就是近义词,于是我用网上最著名的例子《人民的名义》做了实验:
需要的库有 gensim,jieba 使用pip安装即可。
第一步:分词
人民的名义下载地址:http://files.cnblogs.com/files/pinard/in_the_name_of_people.zip
#-*-coding:utf-8 -*-
''' jieba分词 '''
import jieba.analyse
import jieba
from gensim.models import word2vec
jieba.suggest_freq('沙瑞金',True)
jieba.suggest_freq('田国富',True)
jieba.suggest_freq('高育良',True)
jieba.suggest_freq('侯亮平',True)
jieba.suggest_freq('钟小艾', True)
jieba.suggest_freq('陈岩石', True)
jieba.suggest_freq('欧阳菁', True)
jieba.suggest_freq('易学习', True)
jieba.suggest_freq('王大