《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记

Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context

基本信息

Authors:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov

Year:2019

From:n/a

研究目的

提出一个Transformer-XL模型,可以建模长距离依赖,解决句子分割的时候不考虑句子上下文(自然边界)的问题

相关工作

  • 语言建模的提升方向
    1. 第一种是设计新结构来建模来更好地encode the context
    2. 第二种是提升归一化和优化算法
    3. 第三种是加速softmax的计算
    4. 第四种是enriching the outputdistribution family
  • 为了在语言建模中capture long-range context
    1. context representations are manually defined
    2. rely ondocument-level topics learned from data
  • 改变LSTM
    1. 更好的初始化
    2. additional loss signal
    3. ugmented memory structure
    4. modify the internal architecture of RNNs to ease the optimization

方法

  1. Segment-Level Recurrence with StateReuse
    在这里插入图片描述
    在这里插入图片描述
    这个方法会cache一系列的隐层状态h,这一系列的大小是预设的M。论文中的实验部分M等于segment length。

  2. Relative Positional Encodings
    R ∈ R L m a x × d R\in \mathbb{R}^{L_{max} \times d} RRLmax×d,这就是相对位置编码的矩阵, R i R_i Ri表示相对距离为i
    在这里插入图片描述
    以前没有information to distinguish the positional difference x r , j x_{r,j} xr,j x r + 1 , j x_{r+1,j} xr+1,j
    对于绝对位置编码有三处改变
    在这里插入图片描述
    在这里插入图片描述

  • R i − j R_{i - j} Rij
  • u和v是两个可训练的变量
  • W k W_k Wk拆分成 W k , E 基 于 内 容 的 k e y W_{k,E}基于内容的key Wk,Ekey W k , R W_{k,R} Wk,R基于位置的key

综合公式
在这里插入图片描述

实验

语言建模
在这里插入图片描述
消融实验

在这里插入图片描述

结论

  1. 提出了一个Transformer-XL,把循环的机制引入Transformer中,更全面地利用上下文信息,同时大大地加快了推断的速度

Notes

n/a

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值