短文本相似性建模中相关性匹配及语义匹配的研究——EMNLP2019论文阅读笔记

最新推荐文章于 2020-11-24 00:58:09 发布

gxsHeeN

最新推荐文章于 2020-11-24 00:58:09 发布

阅读量1.2k

点赞数 2

分类专栏： NLP 文章标签：短文本匹配文本相似性

本文链接：https://blog.csdn.net/gxsHeeN/article/details/102671747

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling 论文笔记

论文链接在这里

摘要

强调信息检索中的相关性和语义相关性存在差别。为了填补这一差距，作者提出了HCAN (Hybrid Co-Attention Network),包含：（1）CNN与LSTM混合的encoder；（2）多粒度的相关性匹配模块；（3）co-attention的语义匹配模块

1 引言

提到了两类匹配模型未必能混用，语义匹配强调意思的对应和成份的结构，而相关性匹配关注关键词的匹配；
提到模型的对称性，match(a,b)和match(b,a)；
相关性匹配模型（DRMM，Co-PACRR）采用基于交互的设计，在query和doc乘积相似性矩阵上构建模型；
语义匹配模型关注上下文感知的表示学习
研究两个问题：
（1）现有的两类模型是否可用于对方的问题？
（2）两类模型捕获的信息是否互补？

2.1 混合encoder

针对句子的embedding 矩阵，encoder分为三种：
（1）堆叠的多层CNN；
（2）并行多个CNN；
（3）双向LSTM

2.2 相关性匹配

相关性匹配是将query表示 $U_q$ 与doc表示 $U_c$ 两个矩阵相乘（内积），得到一个相似性得分矩阵，
对q每个词的得分向量做softmax归一化，然后对每个得分向量做mean-pooling和max-pooling，即相关性匹配的信息，乘上各个词的权重（外部知识），得到二维的相关性匹配输出

2.3 语义匹配

语义匹配时，首先对query和doc的编码矩阵进行双线性attention操作
特征矩阵 $\tilde{U_{q}}$ 是doc的attention表示；特征矩阵 $\tilde{U_{c}}$ 是doc关于attention max-pooling值作为权重时的加权和，反映了doc中哪些词更为重要（这一部分公式和文章看的不太明白，口述起来比较难）
语义部分拼接的特征矩阵为 $[U_c;\tilde{U_{q}};U_c \otimes \tilde{U_{q}};\tilde{U_c} \otimes \tilde{U_{q}}]$ ,该矩阵通过一个双向LSTM，得到d维的语义匹配输出(最后一个hidden state)