PACRR: A Position-Aware Neural IR Model for Relevance Matching阅读笔记

最新推荐文章于 2021-09-21 17:16:07 发布

Leokb24

最新推荐文章于 2021-09-21 17:16:07 发布

阅读量980

点赞数

分类专栏：文本匹配论文阅读文章标签：检索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leo_95/article/details/100900329

版权

文章目录

前言
PACRR模型
Co-PACRR模型

前言

今天介绍两个模型——PACRR和Co-PACRR。

PACRR模型

模型主要分为两部分：

关联匹配组件，将每个query-document对转变为相似矩阵；
一个深度网络，以相似矩阵作为输入，生成query-document关联分数。

在这里插入图片描述

关联匹配

首先利用query-document相似矩阵对query-document关联匹配进行编码。
相似矩阵利用query和document的词向量余弦距离表示。

之后利用卷积操作提取n-gram特征。

预处理
对于query，将所有条目都padding到query集最长长度。
对于document有以下两种策略：

PACRR-firstk
就是设置超参文章长度k，截长补短。
PACRR-kwindow
设置一个超参n，表示每个文章片段（text snippets）的最大长度，也就是大小为n的窗口。
计算每个窗口的平均相似度。这部分没看太懂，准备看看源码，看懂了回来补充。

深度检索模型

得到query-document相似矩阵之后，以此作为输入，利用卷积网络提取特征。
之后，利用max-pooling抽取strongest similarity cues。
最后，再利用rnn对特征进行聚合来预测全局query-document相关分数。

损失函数

pairwise max margin loss
在这里插入图片描述

实验

训练集的选取

使用2009-2014 TREC Web Track数据集。

TREC将文档分为junk pages (Junk), nonrelevance (NRel), relevance (Rel), high relevance (HRel), key pages (Key) and navigational pages (Nav)这6级。

在选取三元组时，将标签高于Rel的文档作为“高相关“文档，剩下的相关文档分到“相关”这一组。为了选取每一个三元组，抽取一个与训练集中组内文档数量成比例的概率相关的组作为样本组，然后随机抽取一个文档作为正样本 $d^+$ 。

如果选中的组是“高相关”文档组，则从“相关”组随机选取一个作为负样本 $d^-$

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PACRR: A Position-Aware Neural IR Model for Relevance Matching阅读笔记

文章目录模型关联匹配深度检索模型损失函数实验训练集的选取模型模型主要分为两部分：关联匹配组件，将每个query-document对转变为相似矩阵；一个深度网络，以相似矩阵作为输入，生成query-document关联分数。关联匹配首先利用query-document相似矩阵对query-document关联匹配进行编码。相似矩阵利用query和document的词向量余弦距离表...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。