训练词向量的调参技巧

最新推荐文章于 2024-12-12 09:10:48 发布

Bonyin

最新推荐文章于 2024-12-12 09:10:48 发布

阅读量2.1k

点赞数

以词为基本单元输入的自然语言处理任务中，都避免不了使用词的表示，词的表示有很多种，这里主要介绍的就是词向量，word2vec是目前比较通用的训练词向量的工具，使用Gensim模块，可以使词向量的训练变的简单，那么我们知道对于word2vec来说，不论的Skip-Gram models还是CBOW models，他们的输入以及输出都是以单词为基本单位的，只是他们对应的输入以及输出不一样：

Skip-Gram models：输入为单个词，输出目标为多个上下文单词；
CBOW models：输入为多个上下文单词，输出目标为一个单词；

无论是Skip-Gram models还是CBOW models基本的单元都是词，那么我们获取到的语料，必须要经过分词处理以后才能用于词向量的训练语料。

关于Wordvec的训练词向量的方法参数说明：

选择的训练word2vec的语料要和要使用词向量的任务相似，并且越大越好，论文中实验说明语料比训练词向量的模型更加的重要，所以要尽量收集大的且与任务相关的语料来训练词向量；
语料小（小于一亿词，约 500MB 的文本文件）的时候用 Skip-gram 模型，语料大的时候用 CBOW 模型；
设置迭代次数为三五十次，维度至少选 50，常见的词向量的维度为256、512以及处理非常大的词表的时候的1024维；
def __init__(self, sentences=None, size=100, alpha=0.025, window=5, min_count=5,
max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001,
sg=0, hs=0, negative=5, cbow_mean=1, hashfxn=hash, iter=5, null_word=0,
trim_rule=None, sorted_vocab=1, batch_words=MAX_WORDS_IN_BATCH, compute_loss=False, callbacks=()):

sentences：数据类型为list，可以用BrownCorpus,Text8Corpus或lineSentence来构建sentences
size：向量维度，默认为100
window：当前词与预测次在一个句子中最大距离是多少
min_count：用于字典阶段，词频少于min_count次数的单词会被丢弃掉，默认为5
workers：控制训练的并行数
sg：训练算法，默认为0，对应CBOW算法，sg为1采用skip-gram算法
而且对于word2vec的话，在训练词向量的有两种方式

dim=300
embedding_size = dim
model = gensim.models.Word2Vec(LineSentence(model_dir + 'train_word.txt'),
                               size=embedding_size,
                               window=5,
                               min_count=10,
                               workers=multiprocessing.cpu_count())

model.save(model_dir + "word2vec_gensim.w2v")
model.wv.save_word2vec_format(model_dir + "word2vec_gensim_300d.txt", binary=False)

方式二
documents = list(LineSentence(model_dir + 'train_word.txt'))
print(len(documents))
print(documents[:10])
model = gensim.models.Word2Vec(documents, size=300)
model.train(documents, total_examples=len(documents), epochs=10)
model.save("./input/word2vec.w2v")
model.wv.save_word2vec_format("./input/word_gensim_300d.txt", binary=False)