长文本匹配 - Semantic Text Matching for Long-Form Documents(SMASH RNN) 阅读笔记

系列文章目录

长文本匹配 - CoLDE
长文本匹配 - SMASH RNN



前言

研究领域:Semantic text matching on long document to long document

PDF


一、背景

提出了SMASH RNN(Siamese multi-depth attention based hierarchical recurrent neural network)学习长文本的语义,并实现基于长文档的语义文本匹配。在词信息之外,SMASH RNN 利用文档结构(包括段落、句子、词这些不同文档结构等级的综合信息)改进长文档的表征。采用基于注意力的层次RNN来推导文档结构的表征,并将从不同层级学到的表征聚合,获得整个文档的综合语义表征。
在进行语义文本匹配时,Siamese结构将一对文档的表征结合起来,并推断出一个概率分数作为它们的相似性。论文通过三个实际应用进行了广泛的实证评估,包括电子邮件附件建议、相关文章推荐和引用推荐。实验结果表明,SMASH RNN在语义匹配长文档的分类和排名场景中显著优于竞争基线方法。

二、SMASH RNN的工作原理

1.文档表征

在这里插入图片描述

  • 假设文档的层次结构有三个级别——段落(paragraphs)、句子(sentences)和单词(words)。模型通过不同深度的层次来捕捉文档中的信息,每个深度对应于文档结构的一个层次。
  • 目标:估计源文档ds和每个候选文档dc ∈ Dc之间的语义相似度ˆy =Sim(ds,dc),以便将与源文档语义匹配的目标文档具有更高的语义相似度分数。

在这里插入图片描述

  • 对于每个文档,MASH RNN基于文档结构不同层次的知识派生出一个信息丰富的表示。对于每个层次,一个带有相应层次深度的基于注意力的层次循环神经网络被构建为一个编码器,以生成该层次的表示。在每个层次上,模型使用注意力机制来确定哪些部分的信息更重要。注意力机制通过学习一个权重分布来强调文档中的关键信息,并忽略不那么重要的部分。例如,段落级别编码器使用深度为3的编码器产生段落级别的表示,而句子级别编码器使用深度为2的编码器产生句子级别的表示。对于每个层次,SMASH RNN使用Bi-RNN来处理序列数据,如句子或段落。Bi-RNN通过正向和反向两个方向处理序列,以捕捉序列中的前后依赖关系。
  • 对于每个层次,模型生成一个表示,这些表示通过注意力加权求和得到。最终的文档表示是通过对所有层次的表示进行拼接(concatenation)得到的,这样可以综合不同层次的信息。

2.模型

在这里插入图片描述

  • 为了估计语义文本匹配中的语义相似度,SMASH RNN采用了带有两个MASH
    RNN塔的Siamese结构,分别处理源文档和目标文档,这种结构允许模型学习文档对之间的相似性,而不仅仅是单个文档的表示。给定MASH RNN为源文档和目标文档生成的表示,一个带有非线性的全连接层推断出一个概率分数来检查两篇文档之间的语义关系,使用sigmoid函数。
  • 在Siamese结构下,每个SMASH RNN有两个多深度注意力基础层次循环神经网络(MASH RNN)塔。模型通过二元交叉熵损失函数进行训练,优化目标是最大化匹配文档对的相似性分数,同时最小化不匹配文档对的相似性分数。

应用

通过这种方法,SMASH RNN能够有效地处理长文档,并在多个实际应用中,如电子邮件附件建议、相关文章推荐和引用推荐等任务中,实现了优于传统方法的性能。

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值