Graph-based Hierarchical Relevance Matching Signals for Ad-hoc Retrieval

最新推荐文章于 2023-05-08 07:30:44 发布

我黑切呢**

最新推荐文章于 2023-05-08 07:30:44 发布

阅读量427

点赞数

分类专栏：笔记链接文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_43390809/article/details/114370843

版权

笔记链接专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在这里插入图片描述

abstract

本文提出了一个基于图的分层相关匹配模型（GHRM），它可以同时捕获subtle 和general的层次匹配信号。

     https://github.com/CRIPAC-DIG/GHRM

1.介绍

分层查询文档相关性匹配过程示例。(a)查询和候选文档(省略部分文字)。(b)文档中部分文字图。（c）包含关键词并丢弃与查询无关的词的层次图：
在这里插入图片描述

3 PROPOSED METHOD

3.1 Problem Formulation

查询和文档：
在这里插入图片描述

本文目的是对关于查询词和文档词的一系列相关性 $r$ $e$ $l$ ( $q$ , $d$ )进行排序。

3.2 Graph Construction

文档图 $G$ = ( $V$ ， $E$ )，其中 $V$ 是具有节点特征的顶点集， $E$ 是边集。节点特征矩阵和邻接矩阵的构造过程描述如下。

注意：图只建立在文档之上，不包括查询词。

3.2.1 Node feature matrix construction.

在图 $G$ 中，每个节点都表示为文档中的单词。因此，单词序列被表示为一系列节点集
在这里插入图片描述
其中 $n$ 是文档中唯一单词的数量，此外，为了将query-document交互信号引入图中，采用余弦相似性矩阵建立交互，表示为 $S$ ∈ $R$ $^n$ $^×$ $^M$ ， $s$ $_i$ $_j$ 被计算为：

   本文用word2vec获取词向量

3.2.2 Adjacency matrix construction.

邻接矩阵构造（词共现网络）：
在这里插入图片描述
$c$ $o$ $u$ $n$ $t$ ( $i$ , $j$ )表示 $w_i$ 和 $w_j$ 同时出现在滑动窗口内的次数。随后， $A$ 进行归一化（防止梯度爆炸和消失）:

其中 $D$ ∈ $R$ $^n$ $^×$ $^n$ 为度矩阵：

3.3 Graph-based Hierarchical Matching

subtle 和general的查询文档匹配信号都是按照分层匹配结构相互捕获的。如图2所示，基于图的分层匹配的体系结构由多个blocks组成，每个block含图神经网络(GNN)层、相关信号注意力(RSAP)层和readout层。通过该block，可以详尽地捕获不同粒度的分级匹配信号。最后，基于图的分层匹配模块中的每个block的输出被组合在一起作为分层输出。将 $t$ ∈ [ $0$ , $T$ ]设置为分层匹配的第 $t$ 个block。
在这里插入图片描述
GHRM模型的体系结构(1)图构造:通过查询和文档之间的相似度得分构造节点特征矩阵，其中每个节点特征代表其词嵌入和查询词嵌入之间的交互信号。(2)基于图的层次匹配:通过不同粒度的层次图，首先删除与查询无关的词(图中的灰色部分)，并通过RSAP机制自适应地保留可能代表对查询的特定效果(图中的特定颜色)的几个关键节点。(3)读出和匹配:将每个块中读出层的输出组合在一起，以计算匹配分数。

3.3.1 Graph Neural Network Layer.

第 $t$ 个block的邻接矩阵表示： $A^t$ ∈ $R$ $^n$ $^×$ $^n$
第t个block的节点特征表示： $H^t$ ∈ $R$ $^n$ $^×$ $^M$ ，查询-文档交互矩阵初始化为 $H^0$ ：
在这里插入图片描述
其中 $H$ $^0$ $_i$ 表示图中第 $i$ 个节点的表示，等于 $S_i$ ，即交互矩阵 $S$ 的第 $i$ 行。

节点聚合：

$a$ $^t$ $_i$ ∈ $R$ $^M$ 表示从邻居来的消息聚合，上式中 $A$ 就为归一化的邻接矩阵（简化为 $A$ ，难打）,W为可训练的权重矩阵， $t$ 表示 $t$ - $h$ $o$ $p$ 。

节点更新（节点自己和邻居，采用GRU）：
在这里插入图片描述

3.3.2 Relevance Signal Attention Pooling Layer.

在pooling层引入了相关信号注意力汇集机制(RSAP)，通过图神经网络获得每个节点的注意力得分。如图2所示，通过RSAP，分层图在 $t$ = 1到 $t$ = 2时可以丢弃与查询无关的单词(像原始图中的灰色节点)，并且自适应地保留可以表示对查询的特定影响的关键节点。第 $t$ block中的关注分数 $P^t$ ∈ $R^m$ 计算如下：
在这里插入图片描述
一旦获得每个节点的注意力得分，就通过硬注意机制来关注重要节点的选择pooling $r$ $a$ $t$ $e$ ∈(0，1)是一个超参数，它决定了每个RSAP层中要保留的节点数：

top_rank为一个返回索引函数。
则 $t$ +1 block接受的输入为：
在这里插入图片描述