树状结构搜索功能_ICLR 2020 高分论文!利用稀疏多层次Transformer结构获取语法树!...

本文提出了一种新型的Combiner模型,它改进了Transformer架构,通过稀疏注意力门和层次注意力块,从自然语言中学习树状结构,增强了模型的可解释性和性能。在Search Session Understanding任务和无监督的PTB数据集实验中,Combiner模型表现出优于BERT的性能,展示了深度学习在捕捉自然语言结构方面的潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

6112ebc347d7bac0e1d9cbc1148b6bdb.png

一、背景介绍

自从Tansformer结构提出以来,以BERT以代表的模型横扫NLP领域的各个任务。然而,Transformer中密集的注意力机制无法利用自然语言中的内在结构。这篇文章提出了一种新的Transfomer架构—Combiner模型,可以从自然语言中学习树状结构的注意力模式,从而增强了模型的可解释性。

二、方法介绍

传统的Transfomer中使用Self-attention机制对词向量进行了融合,获取了更多的上下文信息。例如:给定输入词向量为H,将词向量H 映射到三个空间Q,K,V,并通过如下公式1来计算注意力分值。

ee56f2977a03ede8b38097669be7415e.png
公式(1)

为了克服传统Transfomer中的密集输出,该文章提出了一种稀疏多层次的Transformer结构。它包含两个模块Sparse attention gate以及Hierarchical attention block。其中,Sparse atte

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值