Character-Aware Neural Language Models笔记

最新推荐文章于 2024-08-07 21:13:51 发布

qq_41500948

最新推荐文章于 2024-08-07 21:13:51 发布

阅读量192

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_41500948/article/details/105201723

版权

字符级别的输入

目前存在的问题：

NLMs已经被证明优于基于计数的n-gram语言模型(Mikolov.2011年)，但是模型对子词信息关注少，例如eventful,eventfully,uneventful和 uneventfully，这些词应该在向量空间内具有类似的结构嵌入。但是NLMs对于罕见词的嵌入估计很差，导致罕见词（以及它们周围的词）的高度困惑。("困惑"模型评价指标之一，困惑值越低，模型性能越好)

本文提出了一种利用子词信息的字符级卷积神经网络(CNN)，其输出作为递归神经网络语言模型(RNN-LM)的输入。

优点：
NLMs模型中的参数大多来自于word embeddings，而本文提出的模型在输入层中未使用word embeddings，所以模型参数较少，且试验效果好

模型总体结构

模型分为3个部分：
(1) Character-level Convolutional Neural Network
(2) Highway Network
(3) Recurrent Neural Network Language Model

(1) 字符级别的CNN
设C为字符集，d为字符插入矩阵的维度，Q (d×|C|)为字符插入矩阵。假设词汇表V中的某个词k由[ $c_1,...,c_l$ ]组成(l是词k的长度)，词k经过矩阵Q可以表示为矩阵 $C^K∈R^{d×l}$ 。滤波器 $H∈R^{d×w}$ (宽度为w),卷积层的输出 $f^k$ 为:

其中 $C^k[*,i:i+w-1]$ 表示矩阵 $C^k$ 的第i至i+w-1列；<A,B>=Tr( $AB^T$ )。然后添加一个“池化层”：

由滤波器的尺寸和词k的长度可知， $f^k$ (向量)长度为l-w+1,给定滤波器的情况下，遍历i后取最大值，这一步的目的是获得值最高的最重要的特征。假设一共有h个滤波器,则 $y^k=[y^k_1,...,y^k_h]$ 。
(2)Highway Network
将上述中的 $y^k$ 作为Highway Network的输入，即：

这一步的_目的_是将直接将一部分的输入当做输入，有效的减少梯度消失的问题，同时也能提高模型性能。

(3)Recurrent Neural Network Language Model
采用经典的LSTM网络结构：

并且在隐藏层后加入一个softmax层

其中词序列 $w_{1:t}=[w_1,...,w_t]$ ， $p^j$ 表示隐藏层输出矩阵的第j列， $q^j$ 是相应的偏置。

qq_41500948

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Character-Aware Neural Language Models笔记

字符级别的输入目前存在的问题：NLMs已经被证明优于基于计数的n-gram语言模型(Mikolov.2011年)，但是模型对子词信息关注少，例如，eventful,eventfully,uneventful和 uneventfully ，这些词应该在向量空间内具有类似的结构嵌入。但是NLMs对于罕见词的嵌入估计很差，导致罕见词（以及它们周围的词）的高度***困惑***。本文提出了一种利用子...
复制链接

扫一扫