#!/usr/bin/python # -*- coding: UTF-8 -*- import sys import codecs #可以以特定编码打开文件 import numpy as np reload(sys) #zzh说这种方法不好,不要再用了!!! 可是真的很好用啊 QAQ sys.setdefaultencoding('utf-8') import gensim #model = gensim.models.Word2Vec.load("22620491.model") model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True) word_vec = model.wv del model #把模型给word_vec,所以Model删掉。 ''' print word_vec[u'难过'] ''' f = codecs.open("xlj_fenci.txt",'r','utf-8') #codecs包指定TXT打开方式 lines = f.readlines() doc = open('xlj_vec.txt', 'w') for line in lines: #每一行弹幕 if lines.index(line) % 100 ==0: #显示跑到多少条数据 print lines.index(line) list=[] for i in range(0,64): list.append(0) list=np.array(list) #转化为array便于加减乘除
词向量求平均合成句向量
最新推荐文章于 2022-06-28 14:38:19 发布