谷歌开源先进语言模型Transformer-XL：集Transformer和RNN之大成

最新推荐文章于 2024-08-09 07:36:49 发布

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

最新推荐文章于 2024-08-09 07:36:49 发布

阅读量853

点赞数 1

本文链接：https://blog.csdn.net/cpongo4/article/details/89149503

版权

近日，谷歌联合 CMU 开源了一个名为 Transformer-XL 的语言模型，它是目前处理语言建模问题最先进的架构之一 Transformer 模型的第三代升级，不仅能够处理可变长度序列，并且在多个任务中刷新了当前的最好性能（推理速度快 300-1800 倍）。

2017年6月，谷歌大脑在论文《Attention Is All You Need》中提出了一个完全基于注意力机制的编解码器模型Transformer ，它完全抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构，在任务表现、并行能力和易于训练性方面都有大幅提升，因此也成为了后续机器翻译和其它许多文本理解任务的重要基准模型。全新的Transformer-XL结合了RNN和Transformer之优点，获得了更好的性能。让我们来一起详细了解一下吧！

语言建模是NLP中的一种重要技术，因为它能够应用在各种NLP任务中，如机器翻译和主题分类等。目前，处理语言建模问题有两种最先进的架构——循环神经网络（RNN）和Transformer。前者处理输入表征（单词或字符），逐个学习它们之间的关系；后者接收一段表征，并使用注意机制学习它们之间的依赖关系。

虽然这两种架构都取得了令人瞩目的成就，但它们的主要局限在于捕获长期依赖性，例如使用文档开头的重要单词来预测后面的单词。谷歌和卡内基梅隆大学的一篇新论文《Transformer-XL：超越固定长度上下文的注意力语言模型》结合了这两种方法的优点。新模型在输入数据的每个段上使用Transformer的注意力模块，并使用循环机制来学习连续段之间的依赖关系。

Transformer-XL在多种语言建模数据集（如单词级别的enwik8和字符级别的text8）上实现了最目前先进的结果，且该模型在推理阶段速度更快，比之前最先进的Transformer架构快300到1800倍。