NLP经典论文：NNLM 笔记

电信保温杯

于 2021-11-10 15:28:55 发布

阅读量2k

点赞数 4

分类专栏：论文笔记文章标签：自然语言处理人工智能 nlp

本文链接：https://blog.csdn.net/sinat_39448069/article/details/121223226

版权

论文笔记专栏收录该内容

32 篇文章 11 订阅

订阅专栏

论文

NLP论文笔记合集（持续更新）

原论文：《A Neural Probabilistic Language Model》

介绍

2003/02发表的文章，提出了神经网路语言模型。该模型使用前 $n - 1$ 个词来预测第 $n$ 个词，计算概率 $p(w_n|w_{1}, w_{2}, ..., w_{n-1})$ 。首先将前 $n - 1$ 个词用 one-hot 表示，然后使用投影矩阵降维，再将降维后的 $n - 1$ 个词的表示拼接起来，输入到单层的使用 tanh 激活的神经网络中，得到一个富含输入信息的 hidden state 向量，或者说是 context 向量，再经过一个线性层得到字典中词得预测分值，经过softmax后得到每个词的概率，其中概率最大的就是模型的预测词。

优点

由于NNLM模型使用了低维紧凑的词向量对上文进行表示，这解决了词袋模型带来的数据稀疏、语义鸿沟等问题。

缺点

模型在神经网络层参数量巨大。

模型结构

在这里插入图片描述

整体模型

输入

$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为输入长度为n-1的一串文本，文本通过one-hot表示， $\in R^{V \times 1}$ ，V为字典大小，包含词的总数。

输出

$f(w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})=\hat{w_t}$ ， $\hat{w}$ 为预测词，为 $max\{\boldsymbol{p}\}$ 所对应的词，其中

$\boldsymbol{p}=\{p(w_1|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}), p(w_2|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}), ..., p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}),...\}, i=1, 2, 3, ..., V$

意思就是给定n-1个输入词（ $w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ ），预测第n个词 $w_{t}$ 时， $\{\boldsymbol{p}\}$ 中概率最大的那个 $p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})$ 所对应的那个词 $w_i$ ，就是预测输出的词。

整体流程

在这里插入图片描述

输入层

在这里插入图片描述

输入

$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为输入长度为n-1的一串文本，文本通过one-hot表示， $\in R^{V \times 1}$ ，V为字典大小，包含词的总数。

输出

$\boldsymbol{x}=C_{t-n+1}\oplus C_{t-n+2}\oplus ...\oplus C_{t-1}, \boldsymbol{x}\in R^{m(n-1)\times 1}$

其中， $\oplus$ 为拼接操作， $C_{i}=\boldsymbol{C}w_{i}$ ， $C_i \in R^{m\times 1}$ ， $\boldsymbol{C}$ 为变换矩阵，投影矩阵， $\boldsymbol{C} \in R^{m \times V}$ ，把one-hot表示的稀疏向量从稀疏的V维空间投影到稠密的m维空间。然后再将 $C_i$ 拼接起来，形成上下文信息，传递给下一层。

隐藏层

在这里插入图片描述

输入

$\boldsymbol{x}=C_{t-n+1}\oplus C_{t-n+2}\oplus ...\oplus C_{t-1}, \boldsymbol{x}\in R^{m(n-1)\times 1}$

输出

$tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})\in R^{h \times 1}, \boldsymbol{H}\in R^{h \times m(n-1)}, \boldsymbol{d}\in R^{h \times 1}$ ，h为隐藏层神经元个数。

这层提取输入的特征，传给下一层。

输出层

在这里插入图片描述

输入

输入层与输出层连接时： $tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})$ ， $x$
输入层与输出层不连接时： $tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})\in R^{h \times 1}$

输出

$\hat{w_t}$

过程

输入层与输出层连接时：

$\boldsymbol{y} = \boldsymbol{b}+\boldsymbol{Wx}+\boldsymbol{U}tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d})$

其中 $\boldsymbol{b}\in R^{V \times 1}, \boldsymbol{W}\in R^{V \times m(n-1)}, \boldsymbol{U}\in R^{V \times h}$ ，通常 $\boldsymbol{W}$ 为 $\boldsymbol{0}$
输入层与输出层不连接时：

$\boldsymbol{y} = \boldsymbol{b}+\boldsymbol{U}tanh(\boldsymbol{H}\boldsymbol{x}+\boldsymbol{d}), \boldsymbol{y} \in R^{V \times 1}$

$\boldsymbol{y}$ 可以理解为融合特征之后，对每一个字典里面的词进行预测值打分，打分的值并不为概率， $\boldsymbol{y}$ 经过softmax，才是最后的预测概率 $\boldsymbol{p}, \boldsymbol{p} \in R^{V \times 1}$

$\boldsymbol{p}=\frac{e^{\boldsymbol{y}}}{\sum\limits_{i}^{V}e^{y_i}}$

softmax结构

在这里插入图片描述
本文的分值y为图中的z，本文的概率p为图中的y。

$\{\boldsymbol{p}\}$ 中概率最大的那个 $p(w_i|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})$ 所对应的那个词 $w_i$ ，就是预测输出的词。

优化目标

交叉熵cross entropy loss

这里使用的是交叉熵cross entropy loss
$CEH(p,q)=-\sum\limits_{x \in \boldsymbol{X}} p(x)\log q(x)$
其中 $\boldsymbol{X}$ 为x的取值范围，多分类任务中代表类别。
这里有2个模型，一个x的真实模型，一个是构造的模型，我们希望构造的模型尽量接近真实模型。交叉熵越小，表示两个概率分布越靠近。p(x)为x的真实概率分布，q(x)为构造模型的概率分布。

NNLM模型的优化目标

$loss=min(-\sum\limits_{t=1}^T\log p(w_t|w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}))$
待优化的参数为： $\boldsymbol{b}, \boldsymbol{d}, \boldsymbol{W}, \boldsymbol{U}, \boldsymbol{H}, \boldsymbol{C}$

对于一个输入样本 $w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 来说，真实概率为one-hot编码值，模型的预测概率为 $\boldsymbol{p}$

示例

原文为：我/爱/中国/共产党，假设字典大小V=4

$f(w_{t-n+1}, w_{t-n+2}, ..., w_{t-1})=\hat{w_t}$
$w_{t-n+1}, w_{t-n+2}, ..., w_{t-1}$ 为：我/爱/中国
预测词 $\hat{w_t}$ 为：共产党

词	one-hot编码
我	[1,0,0,0]
爱	[0,1,0,0]
中国	[0,0,1,0]
共产党	[0,0,0,1]

输入到NNLM模型中，最后得到的概率 $\boldsymbol{p}=[0.1, 0.1, 0.2, 0.6]$

$\boldsymbol{p}$	概率值
$p(我\mid我, 爱, 中国)$	0.1
$p(爱\mid我, 爱, 中国)$	0.1
$p(中国\mid我, 爱, 中国)$	0.2
$p(共产党\mid我, 爱, 中国)$	0.6

$p (共产党 ∣ 我, 爱, 中国)$ 的概率最大，预测的词为：共产党

文章部分翻译

Abstract

pytorch API:

电信保温杯

关注

4
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
NLP经典论文：NNLM 笔记

NLP经典论文：NNLM 笔记《A Neural Probabilistic Language Model》别人的笔记模型结构整体模型输入输出输入层输入输出隐藏层输入输出输出层输入输出softmax结构优化目标交叉熵cross entropy lossNNLM模型的优化目标示例文章部分翻译Abstract别人代码pytorchtensorflowkeras《A Neural Probabilistic Language Model》别人的笔记神经网路语言模型(NNLM)的理解模型结构整体模型输
复制链接

扫一扫