没有词向量就丢掉,不放进词集合里,不浪费句子,的改进。
#!/usr/bin/python
# -*- coding: UTF-8 -*-
from __future__ import division #除法
import sys
import codecs #可以以特定编码打开文件
import jieba
import jieba.posseg as pseg
reload(sys) #zzh说这种方法不好,不要再用了!!! 可是真的很好用啊 QAQ
sys.setdefaultencoding('utf-8')
import gensim
# model = gensim.models.Word2Vec.load("22620491.model")
model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True)
word_vec = model.wv
del model #把模型给word_vec,所以Model删掉。
print word_vec[u'难过']
f = codecs.open("xlj_fenci.txt",'r','utf-8') #codecs包指定TXT打开方式
lines = f.readlines()
#doc = open('fenlei.txt', 'w')
right,wrong,total=0,0,0
cntl,cnta,cntn,cntj,cntw=0,0,0,0,0 #标注时每一类的数量
resl,resa,resn,resj,re