Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling 论文笔记
论文链接在这里
摘要
强调信息检索中的相关性和语义相关性存在差别。为了填补这一差距,作者提出了HCAN (Hybrid Co-Attention Network),包含:(1)CNN与LSTM混合的encoder;(2)多粒度的相关性匹配模块;(3)co-attention的语义匹配模块
1 引言
- 提到了两类匹配模型未必能混用,语义匹配强调意思的对应和成份的结构,而相关性匹配关注关键词的匹配;
- 提到模型的对称性,match(a,b)和match(b,a);
- 相关性匹配模型(DRMM,Co-PACRR)采用基于交互的设计,在query和doc乘积相似性矩阵上构建模型;
- 语义匹配模型关注上下文感知的表示学习
- 研究两个问题:
(1)现有的两类模型是否可用于对方的问题?
(2)两类模型捕获的信息是否互补?
2.1 混合encoder
针对句子的embedding 矩阵,encoder分为三种:
(1)堆叠的多层CNN;
(2)并行多个CNN;
(3)双向LSTM
2.2 相关性匹配
相关性匹配是将query表示
U
q
U_q
Uq与doc表示
U
c
U_c
Uc两个矩阵相乘(内积),得到一个相似性得分矩阵,
对q每个词的得分向量做softmax归一化,然后对每个得分向量做mean-pooling和max-pooling,即相关性匹配的信息,乘上各个词的权重(外部知识),得到二维的相关性匹配输出
2.3 语义匹配
语义匹配时,首先对query和doc的编码矩阵进行双线性attention操作
特征矩阵
U
q
~
\tilde{U_{q}}
Uq~是doc的attention表示;特征矩阵
U
c
~
\tilde{U_{c}}
Uc~是doc关于attention max-pooling值作为权重时的加权和,反映了doc中哪些词更为重要(这一部分公式和文章看的不太明白,口述起来比较难)
语义部分拼接的特征矩阵为
H
=
[
U
c
;
U
q
~
;
U
c
⊗
U
q
~
;
U
c
~
⊗
U
q
~
]
H = [U_c;\tilde{U_{q}};U_c \otimes \tilde{U_{q}};\tilde{U_c} \otimes \tilde{U_{q}}]
H=[Uc;Uq~;Uc⊗Uq~;Uc~⊗Uq~],该矩阵通过一个双向LSTM,得到d维的语义匹配输出(最后一个hidden state)
2.4 分类
两种匹配方式得到的d+2维输出,接上两层全连接+ReLU、softmax,损失函数采用NLL
实验
整体上来看,相关性匹配模型效果优于语义匹配模型,作者的融合模型效果稍有提升
encoder的比较实验中,第一类效果会好一些