论文阅读 - Unify Graph Learning with Text: Unleashing(释放) LLM Potentials for Session Search

 

目录

ABSTRACT

INTRODUCTION

2 RELATED WORK

2.1 Session Search

2.2 Pre-training on Graphs

2.3 Large Language Model For Graph Learning

METHODOLOGY

3.1 Task Formulation

3.2 Overview

3.3 Session Graph Construction

3.3.1 Graph Schema.

3.3.2 Symbolic(符号) Graph Construction.

3.4 Symbolic Learning

3.4.1 Link Prediction.

3.4.2 Node Content Generation.

3.4.3 Generative Contrastive Learning.

3.5 Symbolic Document Ranking

4 EXPERIMENT SETUP

4.1 Research Questions

4.2 Dataset and Evaluation Metrics

4.2.1 Dataset.

4.2.2 Evaluation Metrics

4.3 Baseline

4.4 Implementation Details

5 RESULTS AND ANALYSIS

5.1 Overall Results

5.2 Ablation Study

 5.3 Impact of Session Lengths

 5.5 Performance of SGR in Pre-training Stage


 https://openreview.net/pdf?id=fuAZbKE5Tn

ABSTRACT

        会话搜索涉及用户为满足复杂的信息需求而进行的一系列交互式查询和操作

GAP:

        当前的策略通常优先考虑顺序建模以深入了解语义,往往忽略了交互中的图结构

        另一方面,虽然有些方法侧重于捕捉结构行为数据,但它们对文档使用的是通用表示法,忽略了细微的词级语义建模。

动机:

        在本文中,我们提出了一种名为 “符号图排名器”(SGR)的模型,旨在利用最新的大型语言模型(LLM)的强大功能,同时发挥基于文本和基于图的方法的优势

        具体来说,我们首先介绍了一种使用符号语法规则将图结构数据转换为文本的方法

        这样就能将会话搜索历史、交互过程和任务描述无缝整合为 LLM 的输入

        此外,鉴于在文本语料库上预先训练的 LLM 与我们使用图到文本语法生成的符号文本之间存在天然差异,我们的目标是提高 LLM 在文本格式中捕捉图结构的能力

        为此,我们引入了一系列自监督符号学习任务,包括链接预测、节点内容生成和生成性对比学习,使 LLM 能够捕捉从粗粒度到细粒度的拓扑结构

实验

        在 AOL 和 Tiangong-ST 两个基准数据集上的实验结果和综合分析证实了我们方法的优越性。我们的方法还提供了一种新颖有效的方法,在传统搜索策略和现代 LLM 之间架起了一座桥梁。

INTRODUCTION

        解决复杂的信息要求,用户经常进行多轮的相互作用的搜索引擎获得的结果,更好地协调与他们的搜索意图。在一个紧凑的时间间隔内,发出查询和点击项目等活动通常被称为一次搜索会话。搜索会话中的上下文信息,包括查询序列和用户点击行为,可以用来提高搜索系统的效率[8, 34, 36, 51, 58]。

        一系列研究将用户的搜索会话视为一种连续行为。如图 1(a) 所示,在这种方法中,会话中的所有查询和文档都使用预先训练好的语言模型(如 BERT [ 14 ])进行连接,以生成最终的搜索结果[6, 34, 56 ]。这些技术善于捕捉用户查询的语义,因为信息是在细粒度的词级输入中流动的。然而,这些研究往往忽略了搜索会话是一个动态的交互过程,其中包含丰富的用户参与数据,而不仅仅是语言文本。最近,另一种研究方法试图通过图模型更好地利用搜索会话中的结构数据。在这种方法中,会话中的查询和文档构成了一个异构图 [26 , 43 ],如图 1(b)所示。然而,图中的节点只提供了每个文档或查询的整体粗略表示,而忽略了单词层面的细微差别。

(图 1:会话搜索范例比较:(a) 序列建模,(b) 基于图建模,(c) 我们的符号序列建模。我们的方法同时利用了序列建模(增强语义编码)和图建模(捕捉结构性用户行为)的优点。)

        为了应对上述挑战并融合两种技术的优势,一种直观的方法是将异质结构信息转化为语言模型可以理解的文本。这样,单词级信息就可以在语言模型中充分流动,同时保留图结构信息。然而,这一过程要求模型具有深厚的语言理解和推理能力,以便从文本中捕捉图结构的细微差别,并评估查询与文档之间的相关性--这是一项挑战这可能会阻碍以往的研究。幸运的是,随着 LLM 的出现,它们已经在众多 NLP 和 IR 任务中展示了令人印象深刻的能力 [32, 38 , 39 ]。

        它们能提供深入的文本洞察力和精确的语义理解,并在跨各种模式的内容建模方面大有可为 [53, 54]。因此,我们对利用 LLM 从语言上解释图结构持乐观态度,从而在搜索会话中全面探索语义和结构信息

        具体来说,我们首先创建了一个异构图,将查询和文档区分为主要节点类型。为了捕捉用户交互的多样性,我们还整合了点击、查询转换和文档转换三种不同的边缘类型。然后,为了表示搜索会话中丰富的异构信息,我们将图的显式结构细节转换为符合特定符号文本格式的文本。我们将图和任务指示整合到提示设计中,作为 LLM 的输入。答案token的预测分布被用作排序的相关性概率。这样,我们就把会话搜索任务表述为会话图中文档节点和查询节点之间的链接预测,所有这些都是文本格式。

        请注意,虽然 LLM 是在纯文本上进行预训练的,但我们提出了新的符号来表示图。因此,有必要增强 LLM 对这些符号的理解能力。因此,我们提出了一系列预训练任务,包括链接预测、节点文本属性生成和图形增强生成对比学习。这些任务反映了会话图从粗粒度到细粒度的拓扑信息启发式地引导 LLM 理解异构会话图结构。通过在领域内数据集上对 LLM 进行预训练,我们为它们配备了特定领域的知识。当查询或文档在多个会话中重复出现时,这一点就变得尤为有用,因为这种全局图信息存储在 LLM 的参数中。因此,这些 LLM 不仅能捕捉会话间视角,还能增强它们对会话内上下文的理解。

        在 AOL 和 Tiangong-ST 这两个公共搜索日志数据集上的实验结果表明,我们提出的方法只需相对较少的训练数据就能超越现有方法。我们还进行了大量实验来验证我们的符号图表示法的有效性,并展示了我们的符号学习任务如何提高 LLM 对图的理解能力。

        我们在本文中的贡献可概括如下:

        - 我们的目标是将会话搜索中的结构信息与文本数据相结合,确保充分挖掘和利用搜索会话中的语义和拓扑知识,从而获得更好的搜索结果。

        - 为了实现这一目标,我们利用 LLM 的功能,通过一系列符号规则将图数据转化为文本。认识到 LLM 与基于图形的符号之间的差异,我们设计了一系列自我监督的预训练任务,以更好地调整 LLM 以达到我们的目的。

        - 我们从两个广受认可的搜索日志数据集(AOL 和 Tiangong-ST)中得出的实验结果表明,我们提出的技术超越了现有方法,尤其是在训练数据有限的情况下。

2 RELATED WORK

2.1 Session Search

        会话中的上下文信息被认为有利于推断用户的搜索意图,从而提供更符合用户信息需求的检索结果。早期的研究从用户的搜索历史中提取基于统计和规则的特征,以便更好地描述用户的搜索意图[37 , 44 , 46]。随着深度学习方法的发展,出现了一系列对用户行为序列进行建模的工作,以获得会话搜索任务的语义密集表征。例如,Ahmad 等人[1] 利用分层神经结构与 RNNs 对会话序列进行建模,并在文档排名和查询建议方面取得了有竞争力的性能。更进一步,在现有的基于 RNN 的结构中引入了注意力机制,并取得了更好的效果[2]。由于预训练语言模型已经在各种 NLP 和 IR 任务中展示了自己的能力,使用 PLM 作为骨干已经成为一种将每个搜索会话视为自然语言序列的新模式[6, 34, 43, 56]。

        最近的研究表明,将搜索会话建模为序列可能会忽略查询和文档之间的拓扑交互,而会话历史则可被视为用于交互建模的图。例如,Ma 等人[26] 将会话搜索视为代表每个会话中搜索历史的异构图上的图分类任务,Wang 等人[43] 则提出了一种基于异构图的模型,其中包含一个会话图和一个查询图。

        然而,之前基于图神经网络(GNN)的研究往往只关注会话结构,而忽视了节点语义建模的重要性,在交互过程中只用一个向量来表示整个文档

        在我们的工作中,我们探索了 LLMs 整合两种方法优势的潜力,即对语义的细微差别以及用户行为结构进行建模。具体来说,我们将结构化语言中的会话图谱扁平化为提示语,并设计了象征性的预训练任务,以帮助 LLM 理解和推理该图谱

2.2 Pre-training on Graphs

        为了更有效地学习图,研究人员探索了如何在无标记图数据上预训练节点级表征的 GNN。受自然语言处理[21]和计算机视觉[50]中预训练技术的启发,最近的研究提出了利用自我监督信息对 GNN 进行预训练[47]。

        这种方法旨在通过在同一图上采用自监督学习来解决标签有限的问题[20],或者弥合自监督预训练活动与后续任务之间在优化目标和训练数据上的差异[17 , 25]。

        具有代表性的任务包括链接预测、节点分类和对比学习等。例如,Hu 等人[19] 提出了一种基于图生成因式分解的方法,用于指导基础 GNN 模型重建输入图的属性和结构;Qiu 等人[33] 提出了一种对比预训练模型,用于从多个输入图中捕捉统一且可转移的结构模式

        与之前在向量空间中完成这些任务的工作不同,我们通过一组符号语法将任务转换为文本格式。

2.3 Large Language Model For Graph Learning

        现有研究表明,LLM 在自然语言处理任务中表现出色。最近的研究建议使用图数据创建启发式自然语言提示,目的是增强大型语言模型的能力。

        例如,在工作推荐领域,Wu 等人[45] 建议使用元路径提示构造器来微调大型语言模型推荐器,以理解用户行为图。

        在分子属性预测领域,Zhao 等人[52]为图和文本数据引入了统一的语言模型,从而无需额外的图编码器来学习图结构。通过对分子任务的指令预训练,该模型可有效地应用于各种任务。

        

        与之前的研究不同,我们的方法将历史对话图结构化为自然语言提示,以充分发挥 LLM 的优势。

METHODOLOGY

3.1 Task Formulation

        在介绍我们提出的方法之前,我们首先说明一些术语,并简要阐述会话搜索任务。

        我们将用户搜索会话的历史查询表示为 Q = \{q_1, q_2,.., q_M\}这里的每个查询都是用户提交给搜索引擎的文本,并按其发布的时间戳排序.M是历史长度.

         给定查询q_i,其候选文档列表表示为 D_i = \{d_{i,1}, d_{i,2}, ..., d_{i,N}\}.

        每个文档都有一个二进制点击标签y_{i,j} , 表示用户是否点击了该文档。

        会话搜索任务旨在考虑会话中的上下文信息和发出的查询,对候选文档集进行重新排序D_i

        在本文中,我们将会话上下文表示为历史查询、点击文档和当前查询的序列

        形式上,会话上下文的形式为,其中  是查询的点击文档

3.2 Overview

        我们的模型如图 2 所示。

        我们首先建立一个异质会话图,用于存储用户查询和交互信息然后按照我们特定的图到文本符号语法将其转换为符号文本。这种符号描述与任务描述一起直接输入 LLM,以生成最终搜索结果。

        为了加强 LLM 对符号的理解,我们围绕符号文本提出了三个子任务。这些子任务需要理解现有的图结构,因此不需要额外的注释。最后,我们将搜索会话中的文档排序任务制定为链接预测任务,该任务也是基于符号预测标记的.

3.3 Session Graph Construction

3.3.1 Graph Schema.

        搜索会话包括用户查询、相关文档和用户点击活动。直观地说,查询和文档可被视为图中的节点,当用户为给定查询选择文档时,查询-文档对之间会形成一条边。

        除此之外,还存在以下过渡在查询和文档本身内部。因此,搜索会话自然适合异构图场景,在这种场景中,共享共同文档和查询的多个会话交织成一个全面的全局图.

        从形式上讲,图的定义是G(V , E),其中 , V,E分别表示节点和边的集合。我们的图是异类图,因为它包含多种类型的节点和边。下面,我们将详细介绍为每个会话构建行为图的过程。我们将查询和文档都视为节点,即 V=\{q_1,..., q_i, d_{i,1}, ..., d_{i,j}\}。对于这些节点,我们定义了三种类型的边:

        查询-查询。用户通常会与搜索引擎进行多次交互,以满足他们不断变化和模糊的信息需求。因此,了解查询之间的转换有利于辨别用户的搜索意图。之前的工作[ 43 ] 建议将同一会话中的所有查询对连接起来,其中之前的查询也将连接到所有未来的查询。在此,我们认为连接所有查询对可能会冲淡用户意图的明显进展,并在会话中引入不必要的噪音。因此,我们选择了一种更精简的方法,只连接相邻的查询,表示为查询转换,例如e_i = (q_j, q_{j+1})

        查询-文档。在大规模搜索日志中,点击数据通常被用作查询和文档之间相关性的指标[43]。因此,我们考虑查询和被点击文档之间的点击关系,例如 e_i = (q_j, d_{j,k}), 其中 , y_{j,k}= 1。Liu 等人[23]将查询与其返回的最高结果联系起来,以丰富相关性信号,解决了综合搜索日志中点击次数稀少的问题。然而,我们认为这种方法可能会削弱点击关系的重要性,并无意中纳入不相关的文档。为了给模型提供更细致的信号,我们采用了将在第 3.4 节中介绍的预训练任务。

        文档-文档。到目前为止,所构建的边都是以查询为中心的。然而,在会话搜索中,文档也具有重要意义。查询通常是简短而模糊的概述,而文档则提供了与查询相关的详细而具体的信息。我们认为,点击文档之间的转换也能揭示用户意图的演变补充从查询转换中获得的洞察力。相应地,我们为给定查询的点击文档对构建了一个全连接图,命名为文档转换图,以 e_i = (d_{j,k}, d_{j,l})这样的边为例,其中 , y_{j,k}= 1 和 , y_{j,l}= 1。请注意,查询-查询和查询-文档边是不对称的,每条边都有不同的含义。相反,文档之间的文档-文档边是对称的,因为它们具有共享属性。

3.3.2 Symbolic(符号) Graph Construction.

        传统研究使用神经网络进行图建模 [ 27 , 40 ]。然而,密集向量格式不易被语言模型理解。因此,我们的目标是将图结构转化为语言模型可以理解的特定任务符号语言。这样做有两个好处。首先,LLM 以其深刻的上下文洞察力和准确的语义理解力而闻名,这对于基于文本的会话搜索来说是无价之宝。其次,符号推理可确保透明度和可信度;推理的依据是以符号表示的知识,并遵循符合逻辑原则的定义明确的推理规则 [29] 。

        在形式上,我们通过设置一些符号语法,将会话图转换为符号语言.

        节点:节点v \in V既可以是查询,也可以是文档 , 。每个节点都有自己的节点类型、索引和文本内容。因此,节点的符号表示可表述为

         例如,询问 MacBook 价格的第三个查询表示为 (q3,MacBook 价格?),相应的第五个候选文档表示为 (d5,1,999 美元)

        边:在我们的符号语法中,我们定义了两种边。

        首先,我们保留了原始的点击关系,以表示查询与其所选文档之间的直接交互。其次,我们将查询转换和文档转换都归入 “转移到 ”这一总括术语中。这是因为我们的初步实验表明,区分查询到查询和文档到文档的转换并不能显著提高我们模型的性能。通过将这些转换统一到术语 transfer to 中,我们不仅简化了图表示,还确保了对 LLM 的解释更加精简。对于连接节点v_1 1 和节点 v_2 的边,边的符号表示可表述为

         例如,上述查询节点和文档节点之间的边表示为:

         会话图: 由于我们已将节点信息包含在边的符号表示中,因此将会话图G( V, E)转换为符号语言提示时,可表示为按时间顺序排列的边的串联:

 图2中是符号会话图的一个示例.

3.4 Symbolic Learning

        我们开发了一套独特的语法,用于将图形结构转换为符号文本。这使得 LLM 可以解释和分析它们。为了进一步确保 LLM 能够熟练地理解这种符号表示法,我们引入了一系列预训练任务,旨在让 LLM 熟悉转换后文本的细微差别和错综复杂之处。

3.4.1 Link Prediction.

        链接预测历来是自监督图预处理的核心任务[ 6 , 52]。它利用图中固有的结构和属性来预测节点之间的链接关系。这种方法不仅利用了图的拓扑模式,而且还是捕捉和表示基于图的模型中节点间潜在关系的有效方法。以前的方法是根据每个节点的嵌入计算相似度,而我们则将这项任务重新设想为文本格式,依靠 LLM 的能力来辨别细微差别和关系。

        具体来说,连接节点的边作为正样本,而未连接的边作为负样本。给定我们要预测链接的两个节点 v_1v_2,以及没有目标链接信息的图G_{link},提交给 LLM 的输入结构如下:

        我们用p(X)来表示模型预测的答案标记的对数,这被视为链接概率,其灵感来自序列到序列排序模型[ 30 ]。因此,优化目标是: 

 其中z是链接标签,表示是否存在连接相应节点的边。

3.4.2 Node Content Generation.

        传统的图建模通常只为每个节点提供一个整体表示 [ 25 , 46 , 57]。由于这种简化,早期的图谱预训练任务在很大程度上局限于预测节点属性,而且往往仅限于少数几个类标签。与此相反,我们的方法倾向于保留每个节点的明确语义。为此,我们保留了查询和文档节点的词级信息。在此基础上,本研究要求 LLM 预测每个节点的上下文(无论是查询还是文档内容),从而提升了挑战的难度。

        具体来说,如图 3(b) 所示,我们屏蔽会话图中的节点 2,将得到的图表示为G_{node} 。因此,LLM 的输入为

        内容生成任务的训练目标是重新构建目标节点的内容:

 

         其中,SGC_v(v_2) _{< i} 表示SGC_v(v_2)中第 i 个单词之前的单词。我们让 LLM 同时预测目标节点的内容和索引,这是从基于 ID 的现有推荐作品中获得的灵感[19]。

3.4.3 Generative Contrastive Learning.

        对比学习是图的传统预训练任务,这在 [ 13 -15 ] 等研究中得到了强调。

        这种方法的核心目标是确保相邻节点的表征相似,同时拉开非相邻节点的距离。受此启发,我们提出了一种新范式,即为符号图表示量身定制的生成对比学习任务。

        其基本概念是强调 LLM 对会话历史的认识。因此,这种方法可以让模型更深入地了解上下文,从而更有效地适应随时间演变的图结构。

        具体来说,如图 3(c)所示,我们考虑了两种不同的输入情景: 在第一种情况下,LLM 通过访问搜索历史记录来预测目标节点的内容,表示为

        在第二种情况下,LLM 缺乏这种访问权限,表示为

        我们的目标是让有历史记录的模型性能超过没有历史记录的模型。为此,我们使用 Bradley-Terry 模型 [ 5] 进行成对复杂度(PPL)比较。生成式对比学习的训练目标如下:

3.5 Symbolic Document Ranking

        会话搜索的最终目标是对相关文档序列重新排序。这种方法与第 3.4.1 节中讨论的链接预测任务有相似之处。

        对于给定的查询节点q和会话图中候选集的候选文件d_j,提交给 LLM 的输入为

         回答 “是 ”的标记p(X_j)的对数被视为文档的排名得分。为了优化模型,我们采用了列表式 “从学习到排名 ”的负对数似然损失法,具体如下:

         其中 X_+ 表示相关的正面文件。

4 EXPERIMENT SETUP

4.1 Research Questions

        我们列出了指导实验的五个研究问题:

         - 问题 1(见第 5.1 节): 与各种基线相比,SGR 的总体性能如何?

        - 问题 2(见第 5.2 节): SGR 中每个模块的效果如何?性能提升是否归功于我们提出的符号图表示法

        - 问题 3(见第 5.3 节): 我们的方法对会话长度是否稳健?

        - 问题 4(见第 5.4 节): 我们的模型如何随数据扩展?

        - 问题 5(见第 5.5 节): SGR 在预训练阶段的表现如何?

4.2 Dataset and Evaluation Metrics

4.2.1 Dataset.

        根据之前的研究 [ 8 , 46, 58, 60 ],我们在两个大型搜索日志数据集(即 AOL [ 32 ]和 Tiangong-ST [11])上进行了实验。

        我们使用的是 Ahmad 等人提供的 AOL 数据集[2]。该数据集包含大量以会话分组的搜索日志

        具体来说,在训练集和验证集中,每个查询都有五个候选文档。

        在测试集中,50 篇由 BM25 [ 37] 检索到的文档被用作候选文档。

        该数据集中的每个查询都至少有一次相应的点击。

        对于 Tiangong-ST 数据集,会话数据是从一个中文搜索引擎提供的 18 天搜索日志中提取的,每个查询有 10 个候选文档

        我们的设置遵循[58]。在训练集和评估集中,我们使用点击标签作为相关信号。在测试集中,只使用先前的查询(不包括最后一个查询)及其相关的候选文档。

        与 AOL 数据集一样,该测试场景中的文档都被标记为 “点击 ”或 “未点击”。两个数据集的统计数据如表 1 所示。

4.2.2 Evaluation Metrics

         根据先前的研究,我们采用了平均精度(MAP)、平均互易等级(MRR)和归一化位置累计收益(NDCG@, = 1, 3, 5, 10)作为衡量指标。所有评估结果均由 TREC 的官方评估工具 (trec_eval) [45] 计算得出。

4.3 Baseline

        在实验中,我们将我们的方法与两种基线方法进行了比较,包括 (1) 临时排序方法和 (2) 情境感知排序方法。

        (1) 临时排序法。这些方法只关注发布的查询和候选文档之间的匹配,而忽略了搜索上下文的信息。

        BM25 [ 37 ] 是一个传统的概率模型,它将文档与查询的相关性建模为一个概率函数。我们使用 pyserini [24] 工具来计算 BM25 分数。

        - MonoT5 [30] 是一种序列到序列的重新排序器,它使用 T5 来计算相关性得分。在本文中,我们将经过训练的检查点分别用于 AOL 和 Tiangong-ST 的 MS MARCO [ 3 ]  和 mMARCO [4]。

(2) 情境感知排名。

        这些方法要么采用连续建模来处理历史查询,要么采用基于图的建模来表示用户行为

        - RICR [ 7] 是一种基于 RNN 的方法,它利用历史记录来增强查询和文档在词层面上的表示

        COCA [ 59] 通过数据增强和对比学习对 BERT 编码器进行预训练,以获得更好的会话表示。

        ASE [ 9] 设计了三个生成任务来帮助会话序列的编码。与其他只将后续查询生成作为辅助任务的多任务方法不同,它进一步将后继点击文档和类似查询作为生成目标.

        HEXA [46] 提出用图对搜索会话中的用户行为进行建模。它构建了两个异构图:会话图和查询图,分别从全局和局部捕捉用户意图。

4.4 Implementation Details

        我们使用 PyTorch [ 33 ]来实现我们的模型。具体来说,LLaMa- 7B [ 44 ] 和 BaiChuan-7B [ 51 ] 分别用作 AOL 和 Tiangong-ST 的骨干 LLM。为了便于轻量级微调,我们采用 LoRA [ 21 ]来训练我们的模型,它可以冻结预先训练好的模型参数,并将可训练的秩分解矩阵引入 Transformer 架构的每一层。我们采用 AdamW 优化器[ 26 ]对模型进行了 2 次历时训练。由于计算上的限制,我们从 AOL 测试集中随机选取了 1000 个会话进行评估。所有超参数都根据验证集的性能进行了调整。更多实现细节,请参考我们的代码

5 RESULTS AND ANALYSIS

5.1 Overall Results

        针对 RQ1,在表 2 中,SGR 始终超越其他技术,凸显了我们方法的有效性。根据这些结果,我们可以得出以下结论。

        (1) 情境感知排名方法始终优于临时方法。虽然 BM25 和 MonoT5 等临时模型主要关注即时查询-文档匹配,但它们忽略了用户会话历史中蕴含的大量信息。另一方面,COCA 和 HEXA 等情境感知方法能有效地利用序列或基于图的表示法来模拟用户在一段时间内的行为。这不仅能更深入地了解用户意图,还能捕捉到不断变化的搜索细微差别。上下文感知方法在结果中的优势表明,在动态和交互式搜索会话中,理解更广泛的上下文对于实现更高的相关性和排名准确性至关重要。

        (2) 我们基于 LLM 的 SGR 模型明显优于最先进的 HEXA 方法。虽然两个模型都将会话数据整合到各自的图中,但我们的模型性能更好。另一方面,与我们的模型相比,HEXA 的异构图构造了更多的边,这一点将在第 3.3 节中讨论。此外,HEXA 同时引入了查询图和会话图,而我们的模型建立在单一图结构上。我们模型的积极结果表明,如果搭配精心设计的预训练任务,LLM 可以有效地进行图信息建模。此外,我们的方法潜力巨大,可以随着 LLM 技术的发展而发展。

5.2 Ablation Study

        (1) 各种符号学习前训练任务的影响。针对问题 2,我们启动了消融研究,以深入探讨不同符号学习预训练任务的影响。表 3 列出了这些研究的结果。术语 “无 ”表示使用基准 LLM 进行文档排序,不包含我们建议的符号学习阶段。值得注意的是,全面部署 SGR 策略在所有指标上都取得了最佳结果。

         分解组合时,“链接 + 节点 ”表现最佳。但是,在解耦或单独使用策略时,会出现一个性能明显下降、而 “无 ”配置的高亮度效果最差。这种结果上的梯度强调了综合符号学习在完善序列表示和优化卓越结果方面的关键作用.

        (2) 我们的符号图表示方法的效果。虽然我们的 SGR 取得了令人印象深刻的结果,但关键是要确定这些改进是完全来自会话历史中的附加文本信息,还是来自符号图结构。因此,我们设计了一个实验,如表 4 所示。我们的实验包括三种不同的情况: (1) SGR w/o SG(符号图): 我们省略了包含节点和边的图信息。取而代之的是,会话由带分隔符的序列串联起来表示。(2) SGR w/o SL(符号学习): 虽然我们在此设置中包含了符号图文本,但它是直接微调的,绕过了符号学习的预训练阶段。(3) 全面 SGR 模型。结果表明,剔除SG 或 SL 都会影响模型的性能。具体来说,当我们只保留文本而忽略图表信息(SGR w/o SG)时,我们观察到性能明显下降。这表明,仅仅加入会话历史文本不足以提高性能。此外,预训练任务对于 LLM 理解图结构也很重要(SGR w/o SL)。这凸显了我们的符号图表示法在帮助大型语言模型掌握和利用这一概念方面的功效。

 5.3 Impact of Session Lengths

        对于问题 3,我们将测试片段分为三组:长度少于 2 的短片段、长度为 3 或 4 的中片段以及长度超过 4 的长片段。图 4 显示了 SGR 与多个基线模型相比的卓越性能。无论会话长度如何变化,SGR 的性能始终优于所有基线模型,这凸显了它的稳健性。有一个明显的趋势,即会话长度越长,SGR 的优势就越明显。这表明 LLM 能够熟练地处理长语境和错综复杂的行为关系。这些发现不仅验证了符号图在捕捉会话行为方面的功效,还强调了会话搜索日志在排名机制中的关键作用。

 5.5 Performance of SGR in Pre-training Stage

        对于 RQ5,虽然我们之前的实验主要围绕核心会话搜索任务进行,但值得注意的是,我们的模型最初是在符号学习任务上进行预训练的。因此,除了前面的实验隐含地证明了预训练阶段的有效性之外,我们在这里还要对 SGR 在预训练阶段的表现进行直接考察。

        图 5 右侧显示了符号学习任务中的困惑度(PPL)得分。值得注意的是,PPL 呈下降趋势,表明模型训练有了很大改进。这一观察结果证明,在预训练阶段,SGR 在理解符号图语法方面表现出色,成功地完全捕捉到了底层图结构。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值