gensim Word2vec的使用总结

最新推荐文章于 2023-12-18 09:34:30 发布

Leokb24

最新推荐文章于 2023-12-18 09:34:30 发布

阅读量2.1k

点赞数 3

分类专栏：机器学习工具库文章标签：词向量 gensim

文章目录

准备输入

import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = [['first', 'sentences'], ['second', 'sentence']]
# 创建模型并训练
model = gensim.models.Word2Vec(sentences, min_count=1)

上面这种创建模型的方法, 是把所有的训练语料先全部加载进内存. 如果语料很大, 内存很容易爆掉.

然后发现gensim是提供了解决方法的, 可以迭代的把语料一条条输入进去, 来看看官方的例子

class MySenteces():
	def __init__(self, dirname):
		self.dirname = dirname
	
	def __iter__(self):
		for fname in os.listdir(self.dirname):
			for line in open(os.path.join(self.dirname, fname)):
				yield line.split()

sentences = MySentences('/some/directory')
model = gensim.models.Word2Vec(sentences)

另外, 如果我们需要对语料数据做些预处理, 都可以把它封装到MySentences类里

加载txt类型语料, 也可以直接用gensim提供的函数:

from gensim.models import word2vec
sentences = word2vec.Text8Corpus("a.txt") # 注意要先分词

训练

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Leokb24

关注关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
gensim Word2vec的使用总结

文章目录准备输入训练模型评估模型保存和加载保存加载追加训练模型使用词相似性单个词的词向量计算两个集合的余弦相似度准备输入import gensim, logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)sentences = [['first',...
复制链接

扫一扫