©PaperWeekly 原创 · 作者|金金
单位|阿里巴巴研究实习生
研究方向|推荐系统
论文标题:Match²: A Matching over Matching Model for Similar Question Identification
论文来源:SIGIR 2020
论文链接:https://arxiv.org/pdf/2006.11719.pdf
简介
本文由中科院计算所团队发表于 SIGIR 2020。在社区问答中,根据 user question 找到已存在的 archived question 对于问题搜索和冗余消除都有较大意义,本文提出了一种相似问题的二次匹配模型,将 archived question 的回答作为连接二者的桥梁,辅助判定 archived question 是否与 user question 相似。该模型相比于已有的 SOTA 相似问题匹配模型取得了更好的效果。
算法
该模型包括三个部分:Representation-based Similarity module 用于生成两个问题的相似性向量;Matching Pattern-based Similarity module 使用 archived question 的回答,生成两个问题的匹配模式;Aggregation module 结合二者的输出生成匹配分数,模型的整体框架图如下:
2.1 Representation-based Similarity Module
该部分类似于普通的相似问题判定模型,将 user question 和 archived question 作为输入,得到二者的相似性表示向量。具体来说,该模型将两个问题拼接输入 BERT,得到 [CLS] 向量 和序列 token 表示 如下:
2.2 Matching Pattern-based Similarity Module
该部分使用 archived question 的答案作为桥梁,建立 user question 和 archived question 之间的匹配模式。具体来说,该部分主要分为以下三个模块。
第一模块是 Matching Pattern Layer,该模块分别计算两个问题与答案直接的相似性表示。具体来说,以 user question 举例,首先将 user question 和 archived answer 拼接输入 BERT,为每一个 token 得到 L 层的 embedding,user question 的 embedding 表示为