词向量求平均合成句向量

最新推荐文章于 2022-06-28 14:38:19 发布

元宝sama

最新推荐文章于 2022-06-28 14:38:19 发布

阅读量5.5k

点赞数

本文链接：https://blog.csdn.net/qq_35398413/article/details/81148256

版权

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import sys
import codecs   #可以以特定编码打开文件
import numpy as np

reload(sys)               #zzh说这种方法不好，不要再用了！！！  可是真的很好用啊 QAQ
sys.setdefaultencoding('utf-8')
import gensim

#model = gensim.models.Word2Vec.load("22620491.model")
model = gensim.models.KeyedVectors.load_word2vec_format('news_12g_baidubaike_20g_novel_90g_embedding_64.bin', binary=True)
word_vec = model.wv
del model     #把模型给word_vec，所以Model删掉。
'''
print word_vec[u'难过']
'''


f = codecs.open("xlj_fenci.txt",'r','utf-8')    #codecs包指定TXT打开方式
lines = f.readlines()
doc = open('xlj_vec.txt', 'w')




for line in lines: #每一行弹幕
    if lines.index(line) % 100 ==0:   #显示跑到多少条数据
        print lines.index(line)
    list=[]
    for i in range(0,64):
        list.append(0)
    list=np.array(list)          #转化为array便于加减乘除

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

元宝sama

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
词向量求平均合成句向量

#!/usr/bin/python# -*- coding: UTF-8 -*-import sysimport codecs #可以以特定编码打开文件import numpy as npreload(sys) #zzh说这种方法不好，不要再用了！！！可是真的很好用啊 QAQsys.setdefaultencoding('utf-8')impo...
复制链接

扫一扫