Bilateral Multi-Perspective Matching for Natural Language Sentences论文笔记

本文探讨自然语言句子匹配(NLSM)的任务,介绍了一种新的双边多视角匹配模型(BiMPM)。该模型通过双向匹配和多角度比较改进了句子向量的交互,适用于释义识别、语义推断和答案选择等任务,并在实验中展现出优越性能。
摘要由CSDN通过智能技术生成

自然语言句子的双向多视角匹配

INTRODUCTION

自然语言句子匹配(NLSM)是指对两个句子比较,确定他们的关系,可以完成释义识别,判断两个是否有释义;对于自然语言推理任务,用来判断假设句是否可以从前提句中推断出来;对于问答和信息检索任务,用于评估问答对之间的相关性;对于机器理解任务,用于匹配文章与问题。
目前有两种用于NLSM的深度学习框架,第一种是基于“孪生”结构,将同一个神经编码器分别应用于两个输入句子,使这两个句子都被编码到同一个嵌入空间的句子向量中,然后基于这两个句子向量进行匹配。这个框架的优点是参数共享,使模型更小,更容易训练,句子向量可以用于可视化、句子聚类等多种目的。缺点是在编码过程中,两句话没有明确的交互作用,可能会丢失一些重要的信息。针对这个问题,提出了“匹配-聚合”框架。
在匹配聚合框架中,首先对两个句子的较小单位(比如单词或上下文向量)进行匹配,然后将匹配结构聚合为一个向量进行最终的判断。这样的框架捕获了两句话之间更多的交互特征,因此在任务中得到了很大的提升。然而,以往的方法具有一定局限性,首先,一些方法只探索了逐字匹配,但忽略了其他粒度匹配(比如逐句匹配);第二,只在一个方向上进行匹配而忽略相反的方向。

为了解决这些限制,文章基于匹配-聚合框架提出了一中双边的多视角匹配方法,给定两个句子,首先用Bilstm进行编码,然后在两个方向上进行匹配,在每个匹配方向上,句子1的每个时间步长都从多个角度与句子2的所有时间步长进行匹配,然后,利用另一个lstm层将匹配结构聚合为一个固定长度的匹配向量,最后基于匹配向量,通过全连接层进行决策,并在三个NLSM任务上评估模型:释义识别、语义推断和答案选择任务,通过实验表明,模型在所有任务上都达到了最先进的性能。

Task Definition

将每个NLSM任务表示为一个三元组(P,Q,y),P是长度为M的句子,Q是长度为N的句子,y是label。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值