DRMM model学习笔记

论文原名:A Deep Relevance Matching Model for Ad-hoc Retrieval

导读

本文是发表在CIKM2016上的一篇关于信息检索的文章。神经网络在信息检索上的利用主要有semantic matching和relevance matching两种方式。本文将两种方式的优劣进行分析比较,并提出了DRMM的模型。该模型可以有效的提取query和document之间各个term的相关性,并使用直方图的形式代替pooling,可以有效的区分相似和完全匹配,并保留更多信息。该模型也在测试中取得了相比较与其他模型明显和稳定的提升。

模块

这篇文章提出了模型主要包含三个部分:Matching Histogram Mapping, Feed forward Model, Term Gating Network 三个模块。
在这里插入图片描述
Matching Histogram Mapping模块
输入:query中的每个词和doc所有词产生term pair,对于每一个pair使用相似度计算(论文中使用了余弦距离),考虑到位置对于匹配问题其实没有影响,此处不用位置信息Local interaction,而是将每个pair的相似度进行分级(即将相似性统计成一个直方图的形式,称之为document-aware q-term encoding

e.g.:
Query:“ car ” ;
Document:(car,rent, truck, bump, injunction, runway)。
两两计算相似度为(1,0.2,0.7,0.3,-0.1,0.1),将[-1,1]的区间分为{[−1,−0.5], [−0.5,−0],[0, 0.5], [0.5, 1], [1, 1]} 5个区间。
可将原相似度进行统计,可以表示为[0,1,3,1,1]

论文探讨了三种直方图匹配的方法:

Count-based Histogram (CH): This is the simplest way
of transformation as described above which directly
takes the count of local interactions in each bin as the
histogram value.
Normalized Histogram (NH): We normalize the count
value in each bin by the total count to focus on the
relative rather than the absolute number of different
levels of interactions.
LogCount-based Histogram (LCH): We apply logarithm
over the count value in each bin, both to reduce the
range, and to allow our model to more easily learn
multiplicative relationships

基于次数的直方图(CH):这是最简单的方法
如上述所直接描述的变换
将每个bin中的本地交互计数作为直方图的值。

归一化直方图(NH):我们对计数进行归一化
值在每个容器中按总计数集中
相对的而不是绝对的不同的数量水平的交互。

基于对数的直方图(LCH):我们使用对数
超过计数值的每个箱子,都要减少范围,
并让我们的模型更容易学习乘法的关系

  • 直方图相对于matching matrix的优点:
    1.通过直方图,区别不同的匹配信号,而不像matching matrix所有匹配信号都混杂在一起
    2.不需要zero padding,在matching matrix 中对于短文本需要进行padding,从而对其造成影响


Feed forward Matching Network模块
前馈神经网络模块,用来提取更高层次的相似度信息,对query的每个词形成的直方图(document-aware q-term encoding)输入到前馈神经网络

对于一个query q = { w 1 ( q ) , . . . , w M ( q ) } q = \{w^{(q)}_1,...,w^{(q)}_M\} q=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值