gensim.word2vec 训练词向量

最新推荐文章于 2024-03-19 10:37:02 发布

little fly

最新推荐文章于 2024-03-19 10:37:02 发布

阅读量1.5k

点赞数 4

文章标签：自然语言处理 nlp

本文链接：https://blog.csdn.net/qq_41359817/article/details/109399131

版权

词向量 Word2Vec jieba分词模型训练相似词

关键词由CSDN通过智能技术生成

一、训练词向量

# 导入必要的包
import jieba
import numpy as np
import pandas as pd
from gensim.models.word2vec import Word2Vec
import joblib
from sklearn.svm import SVC

# 读取两个类别的语料
pos = pd.read_csv('weather_pos.txt', encoding='UTF-8', header=None)
neg = pd.read_csv('weather_neg.txt', encoding='UTF-8', header=None)

# 进行分词处理
pos['words'] = pos[0].apply(lambda x: jieba.lcut(x))
neg['words'] = neg[0].apply(lambda x: jieba.lcut(x))

# 将正负语料进行合并成训练语料然后并打上标签，正语料打上标签1，负语料打上标签0
x = np.concatenate((pos['words'], neg['words']))
y = np.concatenate((np.ones(len(pos)), np.zeros(len(neg))))

# 训练词向量128维
word2vec = Word2Vec(x, size=128, window=3, min_count=5, sg=1, hs=1, iter=10, workers=25)
word2vec.save('word2vec.model')

二、使用词向量

加载词向量

word2vec_model = Word2Vec.load('word2vec.model')

将所有词的词向量保存

word2vec_model .wv.save_word2vec_format('word2vec.txt', binary=False)

在这里插入图片描述

获取某个词的词向量

word2vec_model .wv['温度']

在这里插入图片描述

获取某个词的相似词

word2vec_model .most_similar('天气')

在这里插入图片描述

little fly

关注

4
点赞
踩
42

收藏

觉得还不错? 一键收藏
4
评论
gensim.word2vec 训练词向量

一、训练词向量# 导入必要的包import jiebaimport numpy as npimport pandas as pdfrom gensim.models.word2vec import Word2Vecimport joblibfrom sklearn.svm import SVC# 读取两个类别的语料pos = pd.read_csv('weather_pos.txt', encoding='UTF-8', header=None)neg = pd.read_csv('w
复制链接

扫一扫