SIGIR 2020 | 相似问题判定的二次匹配模型

本文提出了一种新的二次匹配模型Match²,用于在社区问答中识别相似问题。模型利用archived question的回答作为桥梁,通过Representation-based和Matching Pattern-based相似性模块计算问题的匹配分数,并通过Aggregation Module融合这两个模块的输出,实现更精确的相似问题识别。实验结果表明,Match²在CQADupStack和QuoraQP-a数据集上超越了现有SOTA模型。
摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者|金金

单位|阿里巴巴研究实习生

研究方向|推荐系统

论文标题:Match²: A Matching over Matching Model for Similar Question Identification

论文来源:SIGIR 2020

论文链接:https://arxiv.org/pdf/2006.11719.pdf

简介

本文由中科院计算所团队发表于 SIGIR 2020。在社区问答中,根据 user question 找到已存在的 archived question 对于问题搜索和冗余消除都有较大意义,本文提出了一种相似问题的二次匹配模型,将 archived question 的回答作为连接二者的桥梁,辅助判定 archived question 是否与 user question 相似。该模型相比于已有的 SOTA 相似问题匹配模型取得了更好的效果。

算法

该模型包括三个部分:Representation-based Similarity module 用于生成两个问题的相似性向量;Matching Pattern-based Similarity module 使用 archived question 的回答,生成两个问题的匹配模式;Aggregation module 结合二者的输出生成匹配分数,模型的整体框架图如下:

2.1 Representation-based Similarity Module

该部分类似于普通的相似问题判定模型,将 user question 和 archived question 作为输入,得到二者的相似性表示向量。具体来说,该模型将两个问题拼接输入 BERT,得到 [CLS] 向量 和序列 token 表示 如下:

2.2 Matching Pattern-based Similarity Module

该部分使用 archived question 的答案作为桥梁,建立 user question 和 archived question 之间的匹配模式。具体来说,该部分主要分为以下三个模块。

第一模块是 Matching Pattern Layer,该模块分别计算两个问题与答案直接的相似性表示。具体来说,以 user question 举例,首先将 user question 和 archived answer 拼接输入 BERT,为每一个 token 得到 L 层的 embedding,user question 的 embedding 表示为

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值