谷歌开源先进语言模型Transformer-XL:集Transformer和RNN之大成

近日,谷歌联合 CMU 开源了一个名为 Transformer-XL 的语言模型,它是目前处理语言建模问题最先进的架构之一 Transformer 模型的第三代升级,不仅能够处理可变长度序列,并且在多个任务中刷新了当前的最好性能(推理速度快 300-1800 倍)。

2017年6月,谷歌大脑在论文《Attention Is All You Need》中提出了一个完全基于注意力机制的编解码器模型Transformer ,它完全抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,在任务表现、并行能力和易于训练性方面都有大幅提升,因此也成为了后续机器翻译和其它许多文本理解任务的重要基准模型。全新的Transformer-XL结合了RNN和Transformer之优点,获得了更好的性能。让我们来一起详细了解一下吧!

语言建模是NLP中的一种重要技术,因为它能够应用在各种NLP任务中,如机器翻译和主题分类等。目前,处理语言建模问题有两种最先进的架构——循环神经网络(RNN)和Transformer。前者处理输入表征(单词或字符),逐个学习它们之间的关系;后者接收一段表征,并使用注意机制学习它们之间的依赖关系。

虽然这两种架构都取得了令人瞩目的成就,但它们的主要局限在于捕获长期依赖性,例如使用文档开头的重要单词来预测后面的单词。谷歌和卡内基梅隆大学的一篇新论文《Transformer-XL:超越固定长度上下文的注意力语言模型》结合了这两种方法的优点。新模型在输入数据的每个段上使用Transformer的注意力模块,并使用循环机制来学习连续段之间的依赖关系。

Transformer-XL在多种语言建模数据集(如单词级别的enwik8和字符级别的text8)上实现了最目前先进的结果,且该模型在推理阶段速度更快,比之前最先进的Transformer架构快300到1800倍。

背景介绍:Transformer架构

语言建模的一种常用方法是循环神经网络(RNN),因为这种网络可以很好地捕获单词之间的依赖关系,尤其是当其中含有LSTM等模块时。然而,受梯度消失问题的影响,RNN往往速度很慢,且其学习长期依赖的能力比较有限。

2017年提出的Transformer架构为语言建模问题提供了一种全新的解决方案:注意力模块。注意模块不是逐个地处理表征,而是接收一整段表征,并使用三个可训练的权重矩阵——查询(Query),键(Key)和值ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值