标题:Learning Better Representations for Neural Information
Retrieval with Graph Information
动机
神经网络排序模型近年来在信息检索领域得到了广泛的关注,并取得了良好的排名性能。然而,这些检索模型大多侧重于捕获查询和文档之间的文本匹配信号,而没有考虑可能有助于检索任务的用户行为信息。具体来说,用户的点击和查询重构行为可以分别用点击通过二部图和会话流图来表示。这种图形表示包含了丰富的用户行为信息,可以帮助我们更好地理解用户在文本信息之外的搜索意图。
研究目的
在这项研究中,目的是将这两个图中编码的丰富信息整合到现有的神经排序模型中。提出两个基于图的神经网络排名模型(EmbRanker和aggranker),用图形信息来丰富学习的文本表示,以获取丰富用户的交互行为信息。在一个大规模的公共基准数据集上的实验结果表明,这两个模型的性能优于大多数只考虑文本信息的神经网络排序模型,说明了图信息与文本信息相结合的有效性。
idea
利用图信息挖掘用户查询意图
问题定义
无向图:
G
G
G =
(
(
(
V
V
V
,
,
,
E
E
E
)
)
)
关注两个图:
- the session-flowgraph
- the click-through bipartite graph
节点
E
E
E包含查询
q
q
q
∈
∈
∈
Q
Q
Q和文档
d
d
d
∈
∈
∈
D
D
D
边E包含两种边:
q
q
q----
q
q
q 和
q
q
q----
d
d
d
q
q
q----
q
q
q表示相同session的连续查询
q
q
q----
d
d
d表示查询点击的文档
给定一个节点和它的文本内容
u
u
u
=
=
= {
w
1
w_1
w1,
w
2
w_2
w2,…,
w
u
w_u
wu}
∈
∈
∈
V
V
V,
N
N
N
(
(
(
u
u
u
)
)
)表示它的邻居(比如一些链接到
u
u
u的节点),图
G
G
G由训练集上的user信息生成。给定一个查询
q
q
q、文档
d
d
d和图
G
G
G,模型的目标是通过生成高质量的表示来估计
d
d
d和
q
q
q的相关性,这些表示既保留了图形中的结构接近信息,也保留了内容中的语义信息。
模型:Embedding-based neural ranker(EmbRanker)
核心思想
基于嵌入的神经ranker(EmbRanker)的核心思想是生成既保留结构化邻近信息又保留文本信息的嵌入。具体地说,结构化邻近意味着一个节点靠近其本地邻域,并且远离嵌入空间中的其他节点。为了学习结构化的邻近信息,本文使用基于skip-gram的网络嵌入方法来学习查询和文档的嵌入。
对于每个输入查询、文档对,EmbRanker首先采用其编码体系结构将文本信息作为嵌入进行编码,然后结合排序损失和结构损失进行优化。
方式:
- skip-grams with negative sampling on random walk-based paths in the
graph
选择一个节点作为初始节点,然后循环选取它的一个邻域作为下一个节点,直到路径长度达到期望的长度。图中的每个节点都被用作初始节点,这意味着每个采样运行都包含
N
N
N个路径。这保证了所有节点都包含在采样路径中。从节点
v
i
v_i
vi到
v
j
v_j
vj的转换受转移概率=1/N,其中N是
v
i
v_i
vi的邻域数。在获取随机游走路径后,应用负采样的skip-gram在路径上捕获近似信息。
对于中心节点,将路径中某个窗口大小为
l
l
l的邻域作为正样本,而将其他节点随机抽取为负样本。并将未单击文档的百分比
∈
∈
∈作为查询节点的负样本。然后,使正样本的可能性最大化,负样本的可能性最小化。因此,结构损失
L
s
L_s
Ls是总体负对数可能性:
e
i
e_i
ei ,
e
j
e_j
ej ,
e
k
e_k
ek 分别表示中心节点,正采样和负采样的嵌入。
整体loss:
Aggregation-based neural ranker(AggRanker)
核心思想
与使用skip-gram成对学习嵌入的EmbRanker相比,基于聚集的神经ranker(aggranker)通过一个图神经网络(GNN)将所有邻域的信息直接传播到焦点节点来学习图信息。关键思想是学习一个邻域嵌入,它表示给定深度的局部结构信息。
流程
在第一阶段中,aggranker首先在给定深度 K K K内收集焦点节点(查询节点或文档节点)的所有邻域,例如( q 1 q_1 q1、 q 2 q_2 q2、 q 3 q_3 q3、 q 4 q_4 q4、 d 1 d_1 d1、 d 2 d_2 d2, d 3 d_3 d3)。使用 e v e_v ev来表示节点 v v v的文本语义嵌入。
其次,AggRanker递归地一层一层地聚合邻居的语义嵌入。 对于第 k k k层节点 v i v_i vi,聚合的嵌入表示为:
第一个聚合的嵌入是文本 语义嵌入:
M
−
M^-
M−是归一化的对称邻接矩阵,表示节点之间的连接关系:
A是邻接矩阵,D是度矩阵。在每一次,网络不仅聚集上一层信息,还将当前节点信息扩散到下一层。层数为K(允许 信息传递最多K次),通过这种信息传播方式可以学习全局信息。
实验
数据集:搜狗
实验
RQ1:Can our framework improve the representation-based ranking models?
RQ2: How does our framework perform compared to existing ranking models?
RQ3: How does graph information contribute to the ranking performance?
- Effect of different graphs
- Effect of depth in the graph
- Effect of graph size.
图信息可以看作是排序模型的一种边信息。为了研究图大小的影响,采用随机抽样的方法改变图节点的百分比。最后,在表5中报告了每种百分比5次抽样的平均结果: