Language Modeling with Gated Convolutional Networks ( GLU )理解

简介

门控线性单元(GLU)是卷积神经网络中的一种门控机制,与循环神经网络的门控循环单元(GRU)不同的的是更加进行梯度容易传播,不易造成梯度消失或者梯度爆炸。而且在计算时间上也大幅度减少。

GLU计算过程

卷积网络就是对输入进行卷积以获得H = f ∗ w,因此没有时间依赖性,这使得在句子的单个单词上更容易并行化。这个计算过程将根据多个先前单词来计算每个上下文。 与递归网络相比,上下文的大小是有限的,但可以表示足够大的上下文并且在实践中表现良好。
词时使用存储在词嵌入矩阵中的向量表示的,词汇表大小D|V|×m,|V|是词汇表达小,m是嵌入维度,模型的输入是单词序列是 W0,…, Wm, 由词嵌入E = [Dw0,… ,DwN]表示。 计算隐藏层h0,…, hL为:

原文:

原文描述图一为下侧GLU模型架构图
GLU计算公式
名词解释
GLU计算过程模型架构

在对输入进行卷积时,要注意hi不包含将来单词的信息。 这是通过移动卷积输入以防止内核看到未来的上下文来解决此问题。具体来说,作者使用k / 2个元素对序列的开头进行零填充,假设第一个输入元素是我们无法预测的,是序列标记的开始,其中k是卷积内核的宽度。

门控机制

门控机制控制信息在网络中流动的路径,并已被证明对递归神经网络很有用。LSTMs通过一个由输入和忘记门控制的独立单元实现长期记忆。这允许信息在可能的许多时间步长中畅通无阻地流动。没有这些门,信息很容易在每个时间步的转换中消失。相反,卷积网络不会遭受相同类型的梯度消失的影响,通过实验发现卷积网络不需要忘记门。
因此,门控线性单元仅具有输出门,该输出门允许网络控制应在层级结构中传播的信息。这种机制对语言建模很有用,因为它允许模型选择与哪些单词或特征相关的单词来预测下一个单词。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

凉寒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值