从4篇论文看Transformer的局部信息建模

最新推荐文章于 2023-11-09 09:43:47 发布

PaperWeekly

最新推荐文章于 2023-11-09 09:43:47 发布

阅读量1k

点赞数

文章标签：自然语言处理机器学习人工智能深度学习大数据

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/117137436

版权

本文探讨了Transformer模型如何处理超长文本，重点介绍了HIBERT模型和局部信息的重要性。HIBERT通过层次化的预训练提升了文档摘要的效果，而其他研究则表明，即使仅保留局部注意力，Transformer的性能也不会明显下降。Longformer和Big Bird等模型通过稀疏注意力机制，降低了对长序列处理的复杂度，从而扩展了Transformer的应用范围。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜张一帆

学校｜华南理工大学本科生

研究方向｜CV，Causality

本文根据时间线整理了几篇 transformer 相关的文章，如何更好地建模超长距离依赖以及其他优化问题。目前来看对于超长文本，我们大概有两个选择：

1）用一些启发式的手段，比如丢弃掉长的部分，或者分段处理；

2）改进 transformer 的架构，利用局部信息替代全局信息。在研究过程中，众多领域发现了局部信息的重要性，甚至每个注意力头都被设计为关注局部信息的 transformer 在很多任务依旧表现良好。

HIBERT

论文标题：

HIBERT: Document Level Pre-training of Hierarchical BidirectionalTransformers for Document Summarization

收录会议：

ACL 2019

论文链接：

https://arxiv.org/abs/1905.06566

代码链接：

https://github.com/abisee/cnn-dailymail

文章的 motivation 很简单，对于文章摘要抽取任务，传统工作是使用层次化的 encoder（RNN,CNN）来提取文章的表示，本文尝试了使用 transformer 来代替传统 encoder 并提出了一种用于摘要提取的预训练 encoder 的方式。

1.1 Document Representation

所谓层次化的 transformer，就是我们先对每个 sentence 抽取表示，然后将每个 sentence 的表示输入上一层 transformer 从而得到整个文章的表示。具体过程如下，我们先用一个 transformer 对每一个单词的 embedding 进行处理，我们选择每个句子 EOS token 最终的表示作为这个句子的表示，接下来所有句子会被扔进文档级别的 transformer 中。

这里需要注意的是，在处理每个单词的时候，我们会加上单词的 position encoding，同样在文档级别的 transformer 中我们会对每个 sentence 加上 position encoding。

1.2 Pre-Training

我们已经知道了 encoder 的设计，那么接下来的任务就是如何训练他，最好是无监督的训练。其实传统的 Summarization 任务中也是没有句子级别的 label 的，往往我们需要先对每个句子的 label 进行预测，然后用预测的 label 作为目标进行摘要抽取，这种自己预测的标签本来就是不准确的，要用它来训练这么复杂的层次化 encoder 是非常难以收敛的，因此文章更倾向于无监督的方式对 encoder 进行预训练。

对摘要抽取任务而言，我们要学习的是整个文章的表达，它的基本单元是句子，因此预训练应该以句子为单位，即将句子 mask 掉然后利用左，右侧的信息来预测 mask 掉的整个句子。Mask 的方式与 BERT 一致。

随机选择文档中 15% 的句子进行 mask，然后根据文档中其他的句子表示向量来预测 mask 的部分