数据竞赛达观杯（3）——word2vec

最新推荐文章于 2023-11-30 17:09:39 发布

orient928

最新推荐文章于 2023-11-30 17:09:39 发布

阅读量361

点赞数

分类专栏：数据竞赛达观杯

本文链接：https://blog.csdn.net/orient928/article/details/89162420

版权

数据竞赛达观杯专栏收录该内容

6 篇文章 1 订阅

订阅专栏

文章目录

一. word2vec原理概述
- 1.CBOW（Continuous Bag-of-Word Model）
- 2.skip-gram
二. Python实现
- 1. Word2vec( )参数详解
- 2.代码详解

一. word2vec原理概述

在自然语言处理的任务中，无论哪种算法都需要将文本形态的词转换成为向量形式的词向量（word embedding）。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等算法提供良好的数据样本。
word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量（Dense Vector）。在word2vec出现之前，自然语言处理经常把字词转为离散的单独的符号，也就是One-Hot Encoder，但这种表示方式存在很大缺陷，它忽略了单词之间的相关性，当语料库很大的时候，维度太高且矩阵稀疏。
word2vec词向量这种方式，它可以将独热编码转化为低维度的连续值即稠密向量，并且其中意思相近的词被映射到向量空间中相近的位置。一般经过一个简单的神经网络学习到一个权值矩阵，就可将独热编码转化为稠密低维度向量。

1.CBOW（Continuous Bag-of-Word Model）

CBOW是根据目标单词所在原始语句的上下文来推测目标单词本身，即CBOW去除了上下文各词的词序信息，使用上下文各词的平均值。简单来说CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量。比如下面这段话，我们的上下文大小取值为4，特定的这个词是"Learning"，也就是我们需要的输出词向量,上下文对应的词有8个，前后各4个，这8个词是我们模型的输入。由于CBOW使用的是词袋模型，因此这8个词都是平等的，也就是不考虑他们和我们关注的词之间的距离大小，只要在我们上下文之内即可。
在这里插入图片描述
在这个CBOW的例子里，我们的输入是8个词向量，输出是所有词的softmax概率（训练的目标是期望训练样本特定词对应的softmax概率最大），对应的CBOW神经网络模型输入层有8个神经元，输出层有词汇表大小个神经元。隐藏层的神经元个数我们可以自己指定。通过DNN的反向传播算法，我们可以求出DNN模型的参数，同时得到所有的词对应的词向量。这样当我们有新的需求，要求出某8个词对应的最可能的输出中心词时，我们可以通过一次DNN前向传播算法并通过softmax激活函数找到概率最大的词对应的神经元即可。

2.skip-gram

skip-gram和CBOW正好相反，它使用单一的焦点词作为输入，经过训练然后输出它的目标上下文，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。还是上面的例子，我们的上下文大小取值为4，特定的这个词"Learning"是我们的输入，而这8个上下文词是我们的输出。
这个Skip-Gram的例子里，我们的输入是特定词，输出是softmax概率排前8的8个词，对应的Skip-Gram神经网络模型输入层有1个神经元，输出层有词汇表大小个神经元。隐藏层的神经元个数我们可以自己指定。通过DNN的反向传播算法，我们可以求出DNN模型的参数，同时得到所有的词对应的词向量。这样当我们有新的需求，要求出某1个词对应的最可能的8个上下文词时，我们可以通过一次DNN前向传播算法得到概率大小排前8的softmax概率对应的神经元所对应的词即可。

二. Python实现

1. Word2vec( )参数详解

本文使用gensim库中的word2vec（）函数

sentences: 我们要分析的语料，可以是一个列表，或者从文件中遍历读出。
size: 词向量的维度，默认值是100。这个维度的取值一般与我们的语料的大小相关，如果是不大的语料，比如小于100M的文本语料，则使用默认值一般就可以了。如果是超大的语料，建议增大维度。
window：即词向量上下文最大距离，这个参数在我们的算法原理篇中标记为cc，window越大，则和某一词较远的词也会产生上下文关系。默认值为5。在实际使用中，可以根据实际的需求来动态调整这个window的大小。如果是小语料则这个值可以设的更小。对于一般的语料这个值推荐在[5,10]之间。
sg: 即我们的word2vec两个模型的选择了。如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。
hs: 即我们的word2vec两个解法的选择了，如果是0，则是Negative Sampling，是1的话并且负采样个数negative大于0，则是Hierarchical Softmax。默认是0即Negative Sampling。
negative:即使用Negative Sampling时负采样的个数，默认是5。推荐在[3,10]之间。这个参数在我们的算法原理篇中标记为neg。
cbow_mean: 仅用于CBOW在做投影的时候，为0，则算法中的xwxw为上下文的词向量之和，为1则为上下文的词向量的平均值。在我们的原理篇中，是按照词向量的平均值来描述的。个人比较喜欢用平均值来表示xwxw,默认值也是1,不推荐修改默认值。
min_count:需要计算词向量的最小词频。这个值可以去掉一些很生僻的低频词，默认是5。如果是小语料，可以调低这个值
iter: 随机梯度下降法中迭代的最大次数，默认是5。对于大语料，可以增大这个值。
alpha: 在随机梯度下降法中迭代的初始步长。算法原理篇中标记为ηη，默认是0.025。
min_alpha: 由于算法支持在迭代的过程中逐渐减小步长，min_alpha给出了最小的迭代步长值。随机梯度下降中每轮的迭代步长可以由iter，alpha， min_alpha一起得出。这部分由于不是word2vec算法的核心内容，因此在原理篇我们没有提到。对于大语料，需要对alpha, min_alpha,iter一起调参，来选择合适的三个值。

2.代码详解

#导入工具包
import pandas as pd
import gensim
import pickle
import numpy as np
import csv,sys
#定义辅助函数
def sentence2list(sentence):
    return sentence.strip().split()
#构造数据集
print("准备数据................ ")
sentences_train = list(df_train.loc[:, 'word_seg'].apply(sentence2list))
sentences_test = list(df_test.loc[:, 'word_seg'].apply(sentence2list))
sentences = sentences_train + sentences_test
print("准备数据完成! ")
#训练模型
#定义初始参数
vector_size = 100
#开始训练
print("开始训练................ ")
model = gensim.models.Word2Vec(sentences=sentences, size=vector_size, window=5, min_count=5, workers=8, sg=0, iter=5)
print("训练完成! ")
#保存训练结果
print(" 保存训练结果........... ")
wv = model.wv
vocab_list = wv.index2word
word_idx_dict = {}
for idx, word in enumerate(vocab_list):
    word_idx_dict[word] = idx
    
vectors_arr = wv.vectors
vectors_arr = np.concatenate((np.zeros(vector_size)[np.newaxis, :], vectors_arr), axis=0)#第0位置的vector为'unk'的vector

f_wordidx = open(feature_path + 'word_seg_word_idx_dict.pkl', 'wb')
f_vectors = open(feature_path + 'word_seg_vectors_arr.pkl', 'wb')
pickle.dump(word_idx_dict, f_wordidx)
pickle.dump(vectors_arr, f_vectors)
f_wordidx.close()
f_vectors.close()
print("训练结果已保存到该目录下！ ")

参考文献：
https://blog.csdn.net/weixin_41151521/article/details/89161355#Python_20
https://blog.csdn.net/mpk_no1/article/details/72458003

orient928

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据竞赛达观杯（3）——word2vec

文章目录一. word2vec原理概述1.CBOW（Continuous Bag-of-Word Model）2.skip-gram二. Python实现1. Word2vec( )参数详解2.代码详解一. word2vec原理概述在自然语言处理的任务中，无论哪种算法都需要将文本形态的词转换成为向量形式的词向量（word embedding）。良好的词向量可以达到语义相近的词在词向量空间里聚...
复制链接

扫一扫

专栏目录