我的数据是由dataframe中导入的,因此首先要将其中的series转化为list形式
movie_name=data['Movie']
movies_in=list(movie_name)
然后将数据保存为txt形式
sencens=np.savetxt('./movies.txt',movies_in,delimiter=',', fmt ='%s',encoding='utf-8',newline=',')
因为list转化为txt会出现逗号消失的问题,因此要使用newline在行尾添加逗号
第三步导入数据:
from gensim.models.word2vec import LineSentence
sentences = LineSentence('./movies.txt')
第四步使用word2vec进行训练
model =gensim.models.Word2Vec(sentences,min_count=2,window=5)
最后输出结果就是分词的
double=model.wv.key_to_index