Transformer-XL

简介

Transformer智能学习具有固定长度内容的建模局限性,新网络Transformer-XL(超长)包含片段级递归机制和新颖的位置编码机制,从而捕获长期依赖性。

Transformer-XL引入递归机制,重用之前片段中获得的隐藏状态,而不是每次都要从头开始计算每个片段的隐藏状态。重用的隐藏状态当作当前片段的存储器,构成前一片段和当前片段的连接。

除了使用前片段的隐藏状态,Transformer-XL还使用相对位置编码,而不是绝对位置编码,这是因为不引起时间混淆情况下重用状态。
因此,Transformer-XL能够获得更多的相对有效上下文长度(Relative Effective Context Length,RECL)。

1.模型

给定 x = ( x 1 , . . . , x T ) \mathbf x = (x_1, ..., x_T) x=(x1,...,xT),联合概率 P ( x ) = ∏ t P ( x t ∣ x < t ) P(\mathbf x) = \prod_t P(x_t| \mathbf x_{< t}) P(x)=tP(xtx<t),

在这里插入图片描述
一种vanilla model是,先把语料分割为很多个片段,每个片段都没有信息交叉(如上图左)。评估阶段就每次移动一个位置。

Transformer-XL 模型结构是这样,
在这里插入图片描述
计算公式:在这里插入图片描述
SG(·)代表stop-gradient。 [ h u ∘ h v ] [\mathbf h_u \circ \mathbf h_v] [huhv]代表两个片段的拼接。


reference:

  1. 谷歌、CMU重磅论文:Transformer升级版
  2. 源代码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

rosefunR

你的赞赏是我创作的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值