（二）背景知识 -- 4 神经概率语言模型

最新推荐文章于 2024-02-06 20:31:18 发布

Fiona-Dong

最新推荐文章于 2024-02-06 20:31:18 发布

阅读量1k

点赞数

分类专栏： Word2Vec-知其然知其所以然

版权

8 篇文章 3 订阅

订阅专栏

4. 神经概率语言模型

对应上一小节概率模型函数化，神经概率语言模型即用「神经网络」构建「函数 $F$ 」。

对词典 $D$ 中任意词 $w$ ，指定一个固定长度的实值向量 $v(w)\in \Bbb R^m$ 。则， $v (w)$ 称为 $w$ 的词向量， $m$ 为词向量的长度。

词向量存在两种表示方法：

(1) One-hot Representation
用维度为字典长度的向量表示一个词，仅一个分量为1，其余为0。
缺点：容易导致维度灾难，且无法很好地刻画词与词之间的关系。

(2) Distributed Representation
每个词映射为固定长度的短向量，通过刻画两个向量之间的距离来刻画两个向量之间的相似度。

其中，

训练样本 $(C o n t e x t (w), w)$
$w$ 是语料C中的每一个词， $C o n t e x t (w)$ 取为其前面 $n - 1$ 个词。
投影层向量 $X_w$
将该训练样本 $(C o n t e x t (w), w)$ 的前 $n - 1$ 个词的词向量首尾相接，拼接在一起构成 $X_w$ 。
$X_w$ 的长度为 $(n - 1) \cdot m$ ， $m$ 为词向量长度。
隐藏层向量 $Z_w$
$Z_w=tanh(WX_w)+p$
输出层向量 $y_w$
维度为 $N = ∣ D ∣$ ，即，词典 $D$ 中词的个数。
$y_w=UZ_w+q$

注：在对 $y_w$ 做Softmax归一化后， $y_w$ 的分量表示当前词是 $w$ 的概率。

$\frac{e^{y_{w,i_w}}}{\sum_{i=1}^Ne^{y_{w,i}}} \tag{1}$

对于该神经网络，其参数包括：「词向量 $v (w) 」$ 以及「神经网络参数 $W, p, U, q$ 」。一旦确定了这些参数，就相当于确定了「函数 $F$ 」的参数，也就相当于知道了参数 $p (w ∣ C o n t e x t (w))$ ，继而能求得整个句子的概率。

相比于N-gram模型，神经概率语言模型具有以下优点：
(1) 词与词之间的相似度可以通过词向量来体现。
(2) 基于词向量的模型自带「平滑化」功能，无需额外处理。因为公式 $(1)$ 不可能为0。

神经概率语言模型的主要缺点是计算量太大，各参数量级分别为：
(1) 投影层节点数=上下文词数量*词向量维度。上下文数量通常不超过 $5$ ，词向量维度在 $10^2$ 量级。
(2) 隐层节点数在 $10^2$ 量级。
(3) 输出层节点数为词典大小，在 $10^5$ 量级。

因此，对于神经概率语言模型，其主要的计算集中在「隐层和输出层之间的矩阵运算」和「输出层上的Softmax归一化运算」。
考虑到语言模型对语料库中的每一个词 $w$ 都要进行训练，而语料库通常有 $10^6$ 以上的词数，无法承担该计算量。因此，需要做进一步的优化。

关注

专栏目录