Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

68 篇文章 2 订阅
60 篇文章 1 订阅
Transformer-XL 是一种改进的Transformer架构,旨在解决语言建模中固定长度上下文的限制,从而能学习更长距离的依赖。模型通过引入段级递归机制和新颖的相对位置编码,成功解决了上下文碎片化问题并提高了推断速度。实验显示,Transformer-XL相比RNN和常规Transformer能捕获更长距离的依赖,并在多个任务上刷新了SOTA。
摘要由CSDN通过智能技术生成

Abstract

Transformer 结构具有学习长距离依赖的潜力,但在 language modeling 中受限于固定长度的上下文。本文提出的 Transformer-XL(extra long) 架构可以可以突破此限制,在保持连贯性的同时学到更长距离的依赖。Transformer-XL 主要有两个创新:

  • introduce segment-level recurrence mechanism into deep self-attention network
  • introduce noval relative positional encoding scheme

实现的效果主要有:

  • 捕获更长距离的依赖(80% longer than RNNs and 450% longer than vanilla Transformers)
  • 解决 context fragmentation 问题
  • evaluation speed up (1800+ times faster than vanilla Transformers)

注:论文中用于对比的 vanilla Transf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值