【论文精读】Hi-Transformer 层次化和交互化的长文档建模-CSDN博客

本文链接：https://blog.csdn.net/elf1110/article/details/123881145

论文提出了HI-Transformer模型，解决了Transformer在处理长文档时的局限性。该模型通过分层交互机制，先学习句子语义，再结合位置信息建模文档，最终通过池化得到文档表示。实验在Amazon、IMDB和MIND数据集上验证，表明HI-Transformer在长序列建模上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://aclanthology.org/2021.acl-short.107.pdf

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and Effective Long Document Modeling

Abstract

因为输入文本长度的复杂性，Transformer难以处理长文档。

为此，提出一种分层交互式的HI-Transformer模型对长文档进行建模。

Model

整体架构如图所示：

首先经过sentence Transformer来学习每个句子的语义表示；然后结合句子的位置信息，经过Document Transformer，得到对整个文档建模的句子语义信息和Document context-aware的句子表示；然后经过sentence Transformer来增强全局上下文句子建模，得到Global contenxt-aware sentence embedding；最后经过池化（pooling）得到document embedding。