【数据竞赛】“达观杯”文本智能处理挑战赛3

最新推荐文章于 2019-09-29 16:34:51 发布

__盛夏光年__

最新推荐文章于 2019-09-29 16:34:51 发布

阅读量738

点赞数

分类专栏： NLP 文章标签： word2vec 词向量

本文链接：https://blog.csdn.net/u012736685/article/details/89081479

版权

NLP 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

一、语言模型

在统计自然语言处理中，语言模型指的是计算一个句子的概率模型。

传统的语言模型

词的表示是原始的、面向字符串的。
向量角度：更高维、更稀疏的向量。若词汇表大小为 $N$ ，每个字符串形式的词语字典序为 $i$ ，则其被表示为一个 $N$ 维向量，该向量的第 $i$ 维为 1，其他维都为 0。==》维度灾难

神经概率语言模型

词的表示是向量形式、面向语义的。
向量角度：低维（可以自由控制维度，一般是100左右）
可以计算两个词的相似度

二、word2vec

是一种 Distributed Representation 方法，其存在大量的非零分量，Distributed Representation 思想是：通过训练将某种语言中的每一个词映射成一个固定长度的短向量（相对于one-hot而言）。其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。

某个语言模型：CBOW 和 Skip-gram。
学习过程中降低复杂度近似方法：Hierarchical Softmax或Negative Sampling。
==》两个模型乘以两种方法，一共有四种实现。

１、模型

word2vec的两种模型：CBOW模型和Skip-gram模型。
在这里插入图片描述

两个模型都包含三层：输入层、投影层和输出层。

CBOW：已知当前词 $w_t$ 的上下文 $w_{t-2},w_{t-1},w_{t+1},w_{t+2}$ 的前提下预测当前词 $w_t$ .
Skip-gram：已知当前词 $w_t$ 的前提下预测其上下文 $w_{t-2},w_{t-1},w_{t+1},w_{t+2}$ 。

２、基于 Hierarchical Softmax 的 CBOW 模型

CBOW（Continuous Bag-of-Words Model），是一种根据上下文的词语预测当前词语的出现概率的语言模型。

其学习目标是最大化对数似然函数：
$L=\sum_{w\in C}\log p(w|Context(w))$
其中， $w$ 表示语料库 $C$ 中任意一个词。

对于 CBOW 模型：

输入层：上下文词语的词向量（训练模型，词向量是模型中的参数，会不断更新）
投影层：对输入层进行求和，即向量加法。
输出层：输出最可能的 $w$ 。可看为多分类问题（语料库 $∣ C ∣$ 个词向量）

对于神经网络模型多分类，常使用 $S o f t m a x$ 回归：
$h_{\theta}(x^{(i)})= \left[ \begin{matrix} p(y^{(i)}=1|x^{(i)};\theta) \\ p(y^{(i)}=2|x^{(i)};\theta) \\ ... \\ p(y^{(i)}=k|x^{(i)};\theta) \end{matrix} \right] =\frac{1}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}} \left[ \begin{matrix} e^{\theta_1^Tx^{(i)}} \\ e^{\theta_2^Tx^{(i)}} \\ ... \\ e^{\theta_k^Tx^{(i)}} \end{matrix} \right]$
==》缺点：需要对语料库中每个词语（类）都计算一遍输出概率并进行归一化。

Hierarchical Softmax，是输出层的树形结构。它是利用二叉树结构对Softmax进行优化。

非叶子节点（黄色节点）相当于神经元，进行二分类决策并输出１或０，分别代表向下左转或向下右转；
叶子节点代表语料库中的一个词语，于是每个词语都可以被 01 唯一地编码，并且其编码序列对应一个事件序列.
==》则可计算条件概率 $p (w ∣ C o n t e x t (w))$

符号约定：

$p^w$ ：从根节点出发到达 $w$ 对应叶子结点的路径；
$l^w$ ：路径中包含结点的个数；
$p^w_1,p^w_2,...,p^w_{l^w}$ ：路径 $p^w$ 中各个节点；
$d^w_1,d^w_2,...,d^w_{l^w}\in{(0,1)}$ ：词 $w$ 的编码， $d^w_j$ 表示路径 $p^w$ 第 $j$ 个节点对应的编码（根节点无编码）
$\theta^w_1,\theta^w_2,...,\theta^w_{l^w}\in{\mathbb{R}^m}$ ：路径 $p^w$ 中非叶节点对应的参数向量

则 $w$ 的条件概率：
$p(w|Context(w))=\prod_{j=2}^{l^w}p(d^w_j|{x}_w,\theta_{j-1}^w)$
表示根节点到叶子节点 ${x}_w$ ，经过 $l^w-1$ 个节点，编码从下标２开始（根节点无编码），对应的参数向量下标从１开始（根节点为１）。

其中，每一项是一个 Logistic Regression：
$p(d_j^w|{x}_w,\theta_{j-1}^w)= \begin{cases} \sigma(x_w^T\theta_{j-1}^w), & \text{$d_j^w=0$} \\[2ex] 1-\sigma(x_w^T\theta_{j-1}^w), & \text{$d_j^w=1$} \end{cases}$
考虑到 $d$ 只有０和１两种取值，则用指数形式表示为：
$p(d_j^w|{x}_w,\theta_{j-1}^w)=[\sigma(x_w^T\theta_{j-1}^w)]^{1-d_j^w}.[1-\sigma(x_w^T\theta_{j-1}^w)]^{d_j^w}$

对目标函数对对数似然并将 $p (w ∣ C o n t e x t (w))$ 带入目标函数：
$\begin{aligned} L & = \sum_{w\in C}\log p(w|Context(w))\\ & =\sum_{w\in C}log\prod_{j=2}^{l^w}\{[\sigma(x_w^T\theta_{j-1}^w)]^{1-d_j^w}.[1-\sigma(x_w^T\theta_{j-1}^w)]^{d_j^w} \}\\ &=\sum_{w\in C}\sum_{j=2}^{l^w}{({1-d_j^w}).\log[\sigma(x_w^T\theta_{j-1}^w)]}+d_j^w.\log[1-\sigma(x_w^T\theta_{j-1}^w)] \end{aligned}$

每一项不妨简写为：
$L(w,j)={({1-d_j^w}).\log[\sigma(x_w^T\theta_{j-1}^w)]}+d_j^w.\log[1-\sigma(x_w^T\theta_{j-1}^w)]$

如何最大化对数似然函数：最大化每一项即可（近似）。
如何最大化每一项：随机梯度上升法。首先求函数对每个变量的偏导数；然后，对于每个样本，带入偏导数表达式可得函数在该维度的梯度，进行参数更新。

对函数 $L (w, j)$ 有两个参数：每个节点的参数向量 $\theta_{j-1}^w$ 和输出层的输入 $x_w$ ，分别求偏导：
$\frac{\partial L(w,j)}{\partial \theta_{j-1}^w}=\frac{\partial}{\partial \theta_{j-1}^w}\{{({1-d_j^w}).\log[\sigma(x_w^T\theta_{j-1}^w)]}+d_j^w.\log[1-\sigma(x_w^T\theta_{j-1}^w)]\}$
$\because sigmoid$ 函数的导数为： $\sigma'(x)=\sigma(x)[1-\sigma(x)]$
于是代入上式得到：
$\begin{aligned} \frac{\partial L(w,j)}{\partial \theta_{j-1}^w}&= {({1-d_j^w})[1-\sigma(x_w^T\theta_{j-1}^w)]x_w}-d_j^w\sigma(x_w^T\theta_{j-1}^w)x_w \\ &=[1-{d_j^w}-\sigma(x_w^T\theta_{j-1}^w)]x_w \end{aligned}$

于是 $\theta_{j-1}^w$ 的更新表达式如下：
$\theta_{j-1}^w:=\theta_{j-1}^w+\eta[1-{d_j^w}-\sigma(x_w^T\theta_{j-1}^w)]x_w$
其中， $\eta$ 是学习率，学习率越大训练速度越快，但目标函数容易在局部区域来回抖动。

对 $x_w$ 求偏导，注意到在 $L(w,j)={({1-d_j^w}).\log[\sigma(x_w^T\theta_{j-1}^w)]}+d_j^w.\log[1-\sigma(x_w^T\theta_{j-1}^w)]$ 中 $x_w$ 和 $\theta_{j-1}^{w}$ 是对称的，所以可以将 $\theta_{j-1}^{w}$ 换成 $x_w$ ，得到关于 $x_w$ 的偏导数：
$\begin{aligned} \frac{\partial L(w,j)}{\partial x_w}&= &=[1-{d_j^w}-\sigma(x_w^T\theta_{j-1}^w)]\theta_{j-1}^w \end{aligned}$

$x_w$ 是上下文的词向量的和，而非上下文单个词的词向量。如何将这个更新量应用到单个单词的词向量上？
==》直接将 $x_w$ 的更新量整个应用到每个单词的词向量上：
$v(\tilde w):=v(\tilde w)+\eta\sum_{j=2}^{l^w}\frac{\partial L(w,j)}{\partial{x_w}},\tilde{w}\in Context(w)$
其中， $v(\tilde w)$ 表示上下文某一个单词的词向量。
想法：可以取平均之后更新到每个词向量上，

伪代码：

$e = 0$

$x_w=\sum_{u\in Context(w)}v(u)$

For $j = 2: l^w$ DO
{
$\quad$ 3.1 $\;\; q=\sigma(x_w^T\theta_{j-1}^w)$
$\quad$ 3.2 $\;\; g=\eta(1-d_j^w-q)$
$\quad$ 3.3 $\;\; e:=e+g\theta_{j-1}^w$
$\quad$ 3.4 $\;\; \theta_{j-1}^w:=\theta_{j-1}^w+gx_w$ }

FOR $u\in Context(w)$ DO
{
$\quad v(u):=v(u)+e$
}

３、基于Hierarchical Softmax的Skip-gram模型

Skip-gram只是逆转了CBOW的因果关系而已，即已知当前词语，预测上下文。其网络结构如图所示：
在这里插入图片描述
与CBOW模型的区别：

输入层不再是多个词向量，而是一个词向量；
投影层直接将输入层的词向量传递给输出层。

记： $u$ ：表示 $w$ 的上下文中的一个词语。

语言模型的概率函数可以写作：
$p(Context(w)|w)=\prod_{w\in Context(w)}p(u|w)$
这里是一个词袋模型，所以 $u$ 是无序的（相互独立的）

在Hierarchical Softmax思想下，每个 $u$ 都可以编码为一条０１路径：
$p(u|w)=\prod_{j=2}^{l^u}p(d_j^u|v(w),\theta_{j-1}^u)$
类似的，每项可以简写如下：
$p(d_j^u|v(w),\theta_{j-1}^u)=[\sigma(v(w)^T\theta_{j-1}^u)]^{1-d_j^u}\cdot[1-\sigma(v(w)^T\theta_{j-1}^{u})]^{d_j^u}$

将它们写到一块，得到目标函数：
$\begin{aligned} L&=\sum_{w\in C}\log\prod_{u\in Context(w)}\prod_{j=2}^{l^u}\{[\sigma(v(w)^T\theta_{j-1}^u)]^{1-d_j^u}\cdot[1-\sigma(v(w)^T\theta_{j-1}^{u})]^{d_j^u}\} \\ &=\sum_{w\in C}\sum_{u\in Context(w)}\sum_{j=2}^{l^u}\{(1-d_j^u)\cdot\log[\sigma(v(w)^T\theta_{j-1}^u)]+d_j^u\cdot\log[1-\sigma(v(w)^T\theta_{j-1}^u)]\} \end{aligned}$
虽然上式对比CBOW多了一个 $u$ ，但给定训练实例（一个词 $w$ 和它的上下文 ${u\}$ ）， $u$ 也是固定的。所以上式其实依然只有两个变量 $x_w$ 和 $\theta_{j-1}^w$ ，对其求偏导数：
$\begin{aligned} \frac{\partial L(w,u,j)}{\partial x_w}&= [1-{d_j^u}-\sigma(v(w)^T\theta_{j-1}^u)]v(w) \end{aligned}$
省略求导过程，可以得到 $\theta_{j-1}^w$ 的更新表达式：
$\theta_{j-1}^u:=\theta_{j-1}^u+\eta[1-{d_j^u}-\sigma(v(w)^T\theta_{j-1}^u)]v(w)$
利用对称性可得 $x_w$ 的偏导数：
$\begin{aligned} \frac{\partial L(w,u,j)}{\partial v(w)}&= [1-{d_j^u}-\sigma(v(w)^T\theta_{j-1}^u)]\theta_{j-1}^u \end{aligned}$
于是得到 $x_w$ 的更新表达式：
$v(w):=v(w)+\eta\sum_{u\in Context(w)}\sum_{j=2}^{l^u}\frac{\partial L(w,u,j)}{\partial v(w)}$

４、Negative Sampling

对于Negative Sampling，负例是随机挑选出来的。据说Negative Sampling能提高速度、改进模型质量。

三、用gensim实现word2vec

１、API参数

在gensim中，word2vec 相关的API都在包gensim.models.word2vec中。
和算法有关的参数都在类gensim.models.word2vec.Word2Vec中。

２、参数

sentences: 我们要分析的语料，可以是一个列表，或者从文件中遍历读出。后面我们会有从文件读出的例子。
size: 词向量的维度，默认值是100。这个维度的取值一般与我们的语料的大小相关，如果是不大的语料，比如小于100M的文本语料，则使用默认值一般就可以了。如果是超大的语料，建议增大维度。
window：即词向量上下文最大距离，这个参数在我们的算法原理篇中标记为c，window越大，则和某一词较远的词也会产生上下文关系。默认值为5。在实际使用中，可以根据实际的需求来动态调整这个window的大小。如果是小语料则这个值可以设的更小。对于一般的语料这个值推荐在[5,10]之间。
sg: 即我们的word2vec两个模型的选择了。如果是0，则是CBOW模型，是1则是Skip-Gram模型，默认是0即CBOW模型。
hs: 即我们的word2vec两个解法的选择了，如果是0，则是Negative Sampling，是1的话并且负采样个数negative大于0，则是Hierarchical Softmax。默认是0即Negative Sampling。
negative:即使用Negative Sampling时负采样的个数，默认是5。推荐在[3,10]之间。这个参数在我们的算法原理篇中标记为neg。
cbow_mean: 仅用于CBOW在做投影的时候，为0，则算法中的xw为上下文的词向量之和，为1则为上下文的词向量的平均值。在我们的原理篇中，是按照词向量的平均值来描述的。个人比较喜欢用平均值来表示xw,默认值也是1,不推荐修改默认值。
min_count:需要计算词向量的最小词频。这个值可以去掉一些很生僻的低频词，默认是5。如果是小语料，可以调低这个值。
iter: 随机梯度下降法中迭代的最大次数，默认是5。对于大语料，可以增大这个值。
alpha: 在随机梯度下降法中迭代的初始步长。算法原理篇中标记为η，默认是0.025。
min_alpha: 由于算法支持在迭代的过程中逐渐减小步长，min_alpha给出了最小的迭代步长值。随机梯度下降中每轮的迭代步长可以由iter，alpha， min_alpha一起得出。这部分由于不是word2vec算法的核心内容，因此在原理篇我们没有提到。对于大语料，需要对alpha, min_alpha,iter一起调参，来选择合适的三个值。

import pandas as pd
import gensim
import time
import pickle
import numpy as np
import csv,sys
vector_size = 100

maxInt = sys.maxsize
decrement = True
while decrement:
    # decrease the maxInt value by factor 10
    # as long as the OverflowError occurs.
    decrement = False
    try:
        csv.field_size_limit(maxInt)
    except OverflowError:
        maxInt = int(maxInt/10)
        decrement = True

#=======================================================================================================================
# 0 辅助函数
#=======================================================================================================================

def sentence2list(sentence):
    return sentence.strip().split()

start_time = time.time()

#=======================================================================================================================
# 1 准备训练数据
#=======================================================================================================================

print("准备数据................ ")
df_train = pd.read_csv('train_set.csv',nrows=5000,engine='python')
df_test = pd.read_csv('test_set.csv',nrows=5000,engine='python')
sentences_train = list(df_train.loc[:, 'word_seg'].apply(sentence2list))
sentences_test = list(df_test.loc[:, 'word_seg'].apply(sentence2list))
sentences = sentences_train + sentences_test
print("准备数据完成! ")

#=======================================================================================================================
# 2 训练
#=======================================================================================================================
print("开始训练................ ")
model = gensim.models.Word2Vec(sentences=sentences, size=vector_size, window=5, min_count=5, workers=8, sg=0, iter=5)
print("训练完成! ")

#=======================================================================================================================
# 3 提取词汇表及vectors,并保存
#=======================================================================================================================
print(" 保存训练结果........... ")
wv = model.wv
vocab_list = wv.index2word
word_idx_dict = {}
for idx, word in enumerate(vocab_list):
    word_idx_dict[word] = idx
    
vectors_arr = wv.vectors
vectors_arr = np.concatenate((np.zeros(vector_size)[np.newaxis, :], vectors_arr), axis=0)#第0位置的vector为'unk'的vector

f_wordidx = open('word_seg_word_idx_dict.pkl', 'wb')
f_vectors = open('word_seg_vectors_arr.pkl', 'wb')
pickle.dump(word_idx_dict, f_wordidx)
pickle.dump(vectors_arr, f_vectors)
f_wordidx.close()
f_vectors.close()
print("训练结果已保存到该目录下！ ")

end_time = time.time()
print("耗时：{}s ".format(end_time - start_time))