简单教程-word2vec处理英文语料

最新推荐文章于 2024-08-10 07:30:39 发布

liuyanfeier

最新推荐文章于 2024-08-10 07:30:39 发布

阅读量9.5k

点赞数 2

分类专栏： ⭐️语音识别-神经网络-深度学习文章标签：神经网络编码 word2vec

本文链接：https://blog.csdn.net/liuyanfeier/article/details/76994489

版权

本文介绍了word2vec，一个将词转换为向量的工具，适用于神经网络。提供了text8英文语料的下载链接，该语料为UTF-8编码，一行存储所有数据。讲解了如何使用gensim进行模型训练，并列出了训练模型的关键参数。还提及了如何加载和使用google预训练模型以及保存自训练模型。

摘要由CSDN通过智能技术生成

word2vec是google的开源文本处理工具，可以将词处理成向量变成神经网络的输入。word2vec官网

其中提供了一个text8英文语料供我们学习。下载地址：http://mattmahoney.net/dc/text8.zip
网上有很多教我们处理维基百科里面的数据然后变成我们的学习语料的，感兴趣的可以去试试。
该text8语料编码格式UTF-8，所有的数据存储为一行，没有标点符号。我们也可以自己按照这个格式来造数据。

首先安装gensim，word2vec是gensim的一个子模块。

pip3 install  --upgrade gensim

训练模型。

from gensim.models.keyedvectors import KeyedVectors
from gensim.models import word2vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus("text8")   # 加载语料
model = word2vec.Word2Vec(sentences, size=200, windows=5, min_count=5)  
# min-count 表示设置最低频率，默认为5，如果一个词语在文档中出现的次数小于该阈值，那么该词就会被舍弃
# size代表词词向量的维度