短文本相似性建模中相关性匹配及语义匹配的研究——EMNLP2019论文阅读笔记

Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling 论文笔记

论文链接在这里

摘要

强调信息检索中的相关性和语义相关性存在差别。为了填补这一差距,作者提出了HCAN (Hybrid Co-Attention Network),包含:(1)CNN与LSTM混合的encoder;(2)多粒度的相关性匹配模块;(3)co-attention的语义匹配模块

1 引言

  • 提到了两类匹配模型未必能混用,语义匹配强调意思的对应和成份的结构,而相关性匹配关注关键词的匹配;
  • 提到模型的对称性,match(a,b)和match(b,a);
  • 相关性匹配模型(DRMM,Co-PACRR)采用基于交互的设计,在query和doc乘积相似性矩阵上构建模型;
  • 语义匹配模型关注上下文感知的表示学习
  • 研究两个问题:
    (1)现有的两类模型是否可用于对方的问题?
    (2)两类模型捕获的信息是否互补?
2.1 混合encoder

针对句子的embedding 矩阵,encoder分为三种:
(1)堆叠的多层CNN;
(2)并行多个CNN;
(3)双向LSTM

2.2 相关性匹配

相关性匹配是将query表示 U q U_q Uq与doc表示 U c U_c Uc两个矩阵相乘(内积),得到一个相似性得分矩阵,
对q每个词的得分向量做softmax归一化,然后对每个得分向量做mean-pooling和max-pooling,即相关性匹配的信息,乘上各个词的权重(外部知识),得到二维的相关性匹配输出

2.3 语义匹配

语义匹配时,首先对query和doc的编码矩阵进行双线性attention操作
特征矩阵 U q ~ \tilde{U_{q}} Uq~是doc的attention表示;特征矩阵 U c ~ \tilde{U_{c}} Uc~是doc关于attention max-pooling值作为权重时的加权和,反映了doc中哪些词更为重要(这一部分公式和文章看的不太明白,口述起来比较难)
语义部分拼接的特征矩阵为 H = [ U c ; U q ~ ; U c ⊗ U q ~ ; U c ~ ⊗ U q ~ ] H = [U_c;\tilde{U_{q}};U_c \otimes \tilde{U_{q}};\tilde{U_c} \otimes \tilde{U_{q}}] H=[Uc;Uq~;UcUq~;Uc~Uq~],该矩阵通过一个双向LSTM,得到d维的语义匹配输出(最后一个hidden state)

2.4 分类

两种匹配方式得到的d+2维输出,接上两层全连接+ReLU、softmax,损失函数采用NLL

实验

整体上来看,相关性匹配模型效果优于语义匹配模型,作者的融合模型效果稍有提升
encoder的比较实验中,第一类效果会好一些

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值