简单教程-word2vec处理英文语料

本文介绍了word2vec,一个将词转换为向量的工具,适用于神经网络。提供了text8英文语料的下载链接,该语料为UTF-8编码,一行存储所有数据。讲解了如何使用gensim进行模型训练,并列出了训练模型的关键参数。还提及了如何加载和使用google预训练模型以及保存自训练模型。
摘要由CSDN通过智能技术生成

word2vec是google的开源文本处理工具,可以将词处理成向量变成神经网络的输入。word2vec官网

其中提供了一个text8英文语料供我们学习。下载地址:http://mattmahoney.net/dc/text8.zip
网上有很多教我们处理维基百科里面的数据然后变成我们的学习语料的,感兴趣的可以去试试。
该text8语料编码格式UTF-8,所有的数据存储为一行,没有标点符号。我们也可以自己按照这个格式来造数据。

首先安装gensim,word2vec是gensim的一个子模块。

pip3 install  --upgrade gensim

训练模型。

from gensim.models.keyedvectors import KeyedVectors
from gensim.models import word2vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus("text8")   # 加载语料
model = word2vec.Word2Vec(sentences, size=200, windows=5, min_count=5)  
# min-count 表示设置最低频率,默认为5,如果一个词语在文档中出现的次数小于该阈值,那么该词就会被舍弃
# size代表词词向量的维度

完成的参数列表

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值