gensim Word2vec的使用总结

准备输入

import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

sentences = [['first', 'sentences'], ['second', 'sentence']]
# 创建模型并训练
model = gensim.models.Word2Vec(sentences, min_count=1)

上面这种创建模型的方法, 是把所有的训练语料先全部加载进内存. 如果语料很大, 内存很容易爆掉.

然后发现gensim是提供了解决方法的, 可以迭代的把语料一条条输入进去, 来看看官方的例子

class MySenteces():
	def __init__(self, dirname):
		self.dirname = dirname
	
	def __iter__(self):
		for fname in os.listdir(self.dirname):
			for line in open(os.path.join(self.dirname, fname)):
				yield line.split()

sentences = MySentences('/some/directory')
model = gensim.models.Word2Vec(sentences)

另外, 如果我们需要对语料数据做些预处理, 都可以把它封装到MySentences类里

加载txt类型语料, 也可以直接用gensim提供的函数:

from gensim.models import word2vec
sentences = word2vec.Text8Corpus("a.txt") # 注意要先分词

训练

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值