简介
门控线性单元(GLU)是卷积神经网络中的一种门控机制,与循环神经网络的门控循环单元(GRU)不同的的是更加进行梯度容易传播,不易造成梯度消失或者梯度爆炸。而且在计算时间上也大幅度减少。
GLU计算过程
卷积网络就是对输入进行卷积以获得H = f ∗ w,因此没有时间依赖性,这使得在句子的单个单词上更容易并行化。这个计算过程将根据多个先前单词来计算每个上下文。 与递归网络相比,上下文的大小是有限的,但可以表示足够大的上下文并且在实践中表现良好。
词时使用存储在词嵌入矩阵中的向量表示的,词汇表大小D|V|×m,|V|是词汇表达小,m是嵌入维度,模型的输入是单词序列是 W0,…, Wm, 由词嵌入E = [Dw0,… ,DwN]表示。 计算隐藏层h0,…, hL为:
原文:
图一为下侧GLU模型架构图