【论文精读】Hi-Transformer 层次化和交互化的长文档建模

论文提出了HI-Transformer模型,解决了Transformer在处理长文档时的局限性。该模型通过分层交互机制,先学习句子语义,再结合位置信息建模文档,最终通过池化得到文档表示。实验在Amazon、IMDB和MIND数据集上验证,表明HI-Transformer在长序列建模上表现出优越性能。
摘要由CSDN通过智能技术生成

论文链接:​​​​​​https://aclanthology.org/2021.acl-short.107.pdf

Hi-Transformer: Hierarchical Interactive Transformer for Efficient and  Effective Long Document Modeling

Abstract

因为输入文本长度的复杂性,Transformer难以处理长文档。

为此,提出一种分层交互式的HI-Transformer模型对长文档进行建模

Model

 整体架构如图所示

首先经过sentence Transformer来学习每个句子的语义表示;然后结合句子的位置信息,经过Document Transformer,得到对整个文档建模的句子语义信息和Document context-aware的句子表示;然后经过sentence Transformer来增强全局上下文句子建模,得到Global contenxt-aware sentence embedding;最后经过池化(pooling)得到document embedding。 

Experiments

Datasets

 three benchmark document modeling datasets:

The first one is Amazon Electronics (He and McAuley, 2016)(denoted as Amazon), which is for product review rating prediction.

The second one is IMDB (Diao et al., 2014), a widely used dataset for movie re-view rating prediction.

 The third one is the MIND dataset (Wu et al., 2020c), which is a large-scale dataset for news intelligence.

 

此外还研究了文本长度对模型性能和计算成本的影响,对比Transformer和Hi-Transformer

 

 实验证明HI-Transformer效果更好,对长序列的性能更好。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值