DL-Paper精读：LSTM + Transformer 架构模型

最新推荐文章于 2024-08-23 19:49:26 发布

星月野

最新推荐文章于 2024-08-23 19:49:26 发布

阅读量5.2k

点赞数 6

分类专栏： paper阅读文章标签：人工智能深度学习自然语言处理 lstm

本文链接：https://blog.csdn.net/li6016265/article/details/118662119

版权

本文探讨了一种将LSTM与Transformer架构结合的模型，旨在通过LSTM的跨 utterance 信息增强Transformer的表示能力。研究显示，这种结合能有效提高语言模型的性能，特别是在错误修正和不同大小数据集上的表现。文章介绍了模型的结构，包括在Transformer模块前添加LSTM层，并讨论了融合层的作用和优势。

摘要由CSDN通过智能技术生成

Transformer Language Models with LSTM-based Cross-Utterance Information Representation

https://arxiv.org/abs/2102.06474arxiv.org

Background

近来，源于某个神奇的需求，需要研究Transformer和LSTM相结合的模型架构。这两者作为自然语言领域两个时代的王者，似乎对立的戏份远大于合作。常理来说，在Transformer刚刚被提出来的一两年内，应该有很多关于这方面的研究工作，但很奇怪地是并未搜索到比较出名的工作。难道是这两者组合效果不佳，水火不容？这篇文章是收录于ICASSP2021的一个工作，旨在将LSTM结合到Transformer结构中，通过一种交叉的信息表达，来获得更强大更鲁棒的语言模型。

对该工作的研究，主要集中在其网络架构的设计和代码的实现方面。由于对于语言方面的不了解，不太清楚文中所给出的0.9%, 0.6% and 0.8% absolute WER reductions on AMI corpus代表怎样的意义。

Architecture

文中针对常见的Transformer Language models（TLM）和TLM-XL（一种使用分段递归来实现超长序列预测的方法）进行改造，具体结构如下。TLM的核心部分是重复的Transformer模块，由多头自适应（Masked MHA）和FFN模块组成。而TLM-XL的区别在于，在计算MHA时将上个block的输入与本次的输入进行concat，共同计算。