20180923 word2vec相似度改进（不浪费句子）

最新推荐文章于 2024-05-24 20:53:15 发布

元宝sama

最新推荐文章于 2024-05-24 20:53:15 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/qq_35398413/article/details/82821165

版权

本文探讨了如何在word2vec中避免浪费句子，通过不使用无词向量的词语，提高模型效率。

摘要由CSDN通过智能技术生成

没有词向量就丢掉，不放进词集合里，不浪费句子，的改进。

#!/usr/bin/python
# -*- coding: UTF-8 -*-
from __future__ import division  #除法
import sys
import codecs   #可以以特定编码打开文件
import jieba
import jieba.posseg as pseg
reload(sys)               #zzh说这种方法不好，不要再用了！！！  可是真的很好用啊 QAQ
sys.setdefaultencoding('utf-8')
import gensim

# model = gensim.models.Word2Vec.load("22620491.model")
model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True)
word_vec = model.wv
del model     #把模型给word_vec，所以Model删掉。

print word_vec[u'难过']

f = codecs.open("xlj_fenci.txt",'r','utf-8')    #codecs包指定TXT打开方式
lines = f.readlines()
#doc = open('fenlei.txt', 'w')


right,wrong,total=0,0,0
cntl,cnta,cntn,cntj,cntw=0,0,0,0,0   #标注时每一类的数量
resl,resa,resn,resj,re

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

元宝sama

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
20180923 word2vec相似度改进（不浪费句子）

没有词向量就丢掉，不放进词集合里，不浪费句子，的改进。#!/usr/bin/python# -*- coding: UTF-8 -*-from __future__ import division #除法import sysimport codecs #可以以特定编码打开文件import jiebaimport jieba.posseg as psegreload(sys...
复制链接

扫一扫