SIGIR 2020 | 相似问题判定的二次匹配模型

最新推荐文章于 2022-12-08 19:30:07 发布

PaperWeekly

最新推荐文章于 2022-12-08 19:30:07 发布

阅读量635

点赞数 1

文章标签：人工智能自然语言处理计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/108426429

版权

本文提出了一种新的二次匹配模型Match²，用于在社区问答中识别相似问题。模型利用archived question的回答作为桥梁，通过Representation-based和Matching Pattern-based相似性模块计算问题的匹配分数，并通过Aggregation Module融合这两个模块的输出，实现更精确的相似问题识别。实验结果表明，Match²在CQADupStack和QuoraQP-a数据集上超越了现有SOTA模型。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

论文标题：Match²: A Matching over Matching Model for Similar Question Identification

论文来源：SIGIR 2020

论文链接：https://arxiv.org/pdf/2006.11719.pdf

简介

本文由中科院计算所团队发表于 SIGIR 2020。在社区问答中，根据 user question 找到已存在的 archived question 对于问题搜索和冗余消除都有较大意义，本文提出了一种相似问题的二次匹配模型，将 archived question 的回答作为连接二者的桥梁，辅助判定 archived question 是否与 user question 相似。该模型相比于已有的 SOTA 相似问题匹配模型取得了更好的效果。

算法

该模型包括三个部分：Representation-based Similarity module 用于生成两个问题的相似性向量；Matching Pattern-based Similarity module 使用 archived question 的回答，生成两个问题的匹配模式；Aggregation module 结合二者的输出生成匹配分数，模型的整体框架图如下：

2.1 Representation-based Similarity Module

该部分类似于普通的相似问题判定模型，将 user question 和 archived question 作为输入，得到二者的相似性表示向量。具体来说，该模型将两个问题拼接输入 BERT，得到 [CLS] 向量和序列 token 表示如下：

2.2 Matching Pattern-based Similarity Module

该部分使用 archived question 的答案作为桥梁，建立 user question 和 archived question 之间的匹配模式。具体来说，该部分主要分为以下三个模块。

第一模块是 Matching Pattern Layer，该模块分别计算两个问题与答案直接的相似性表示。具体来说，以 user question 举例，首先将 user question 和 archived answer 拼接输入 BERT，为每一个 token 得到 L 层的 embedding，user question 的 embedding 表示为