图神经匹配（2020CIKM）

最新推荐文章于 2024-03-05 15:48:51 发布

我黑切呢**

最新推荐文章于 2024-03-05 15:48:51 发布

阅读量546

点赞数

分类专栏：笔记文章标签：神经网络

本文链接：https://blog.csdn.net/qq_43390809/article/details/110527002

版权

笔记专栏收录该内容

74 篇文章 1 订阅

订阅专栏

在这里插入图片描述
标题：Learning Better Representations for Neural Information
Retrieval with Graph Information

动机

神经网络排序模型近年来在信息检索领域得到了广泛的关注，并取得了良好的排名性能。然而，这些检索模型大多侧重于捕获查询和文档之间的文本匹配信号，而没有考虑可能有助于检索任务的用户行为信息。具体来说，用户的点击和查询重构行为可以分别用点击通过二部图和会话流图来表示。这种图形表示包含了丰富的用户行为信息，可以帮助我们更好地理解用户在文本信息之外的搜索意图。

研究目的

在这项研究中，目的是将这两个图中编码的丰富信息整合到现有的神经排序模型中。提出两个基于图的神经网络排名模型（EmbRanker和aggranker）,用图形信息来丰富学习的文本表示，以获取丰富用户的交互行为信息。在一个大规模的公共基准数据集上的实验结果表明，这两个模型的性能优于大多数只考虑文本信息的神经网络排序模型，说明了图信息与文本信息相结合的有效性。

idea

利用图信息挖掘用户查询意图
在这里插入图片描述

问题定义

无向图： $G$ = $($ $V$ $,$ $E$ $)$
关注两个图：

the session-flowgraph
the click-through bipartite graph

节点 $E$ 包含查询 $q$ $\in$ $Q$ 和文档 $d$ $\in$ $D$
边E包含两种边： $q$ ---- $q$ 和 $q$ ---- $d$

$q$ ---- $q$ 表示相同session的连续查询
$q$ ---- $d$ 表示查询点击的文档
给定一个节点和它的文本内容 $u$ $=$ { $w_1$ , $w_2$ ,…, $w_u$ } $\in$ $V$ ， $N$ $（$ $u$ $）$ 表示它的邻居（比如一些链接到 $u$ 的节点），图 $G$ 由训练集上的user信息生成。给定一个查询 $q$ 、文档 $d$ 和图 $G$ ，模型的目标是通过生成高质量的表示来估计 $d$ 和 $q$ 的相关性，这些表示既保留了图形中的结构接近信息，也保留了内容中的语义信息。

模型：Embedding-based neural ranker(EmbRanker)

在这里插入图片描述

核心思想

基于嵌入的神经ranker（EmbRanker）的核心思想是生成既保留结构化邻近信息又保留文本信息的嵌入。具体地说，结构化邻近意味着一个节点靠近其本地邻域，并且远离嵌入空间中的其他节点。为了学习结构化的邻近信息，本文使用基于skip-gram的网络嵌入方法来学习查询和文档的嵌入。

对于每个输入查询、文档对，EmbRanker首先采用其编码体系结构将文本信息作为嵌入进行编码，然后结合排序损失和结构损失进行优化。

方式：

skip-grams with negative sampling on random walk-based paths in the
graph

选择一个节点作为初始节点，然后循环选取它的一个邻域作为下一个节点，直到路径长度达到期望的长度。图中的每个节点都被用作初始节点，这意味着每个采样运行都包含 $N$ 个路径。这保证了所有节点都包含在采样路径中。从节点 $v_i$ 到 $v_j$ 的转换受转移概率=1/N，其中N是 $v_i$ 的邻域数。在获取随机游走路径后，应用负采样的skip-gram在路径上捕获近似信息。
对于中心节点，将路径中某个窗口大小为 $l$ 的邻域作为正样本，而将其他节点随机抽取为负样本。并将未单击文档的百分比 $\in$ 作为查询节点的负样本。然后，使正样本的可能性最大化，负样本的可能性最小化。因此，结构损失 $L_s$ 是总体负对数可能性：
在这里插入图片描述
$e_i$ , $e_j$ , $e_k$ 分别表示中心节点，正采样和负采样的嵌入。
整体loss：