大语言模型在文本属性图学习中的知识蒸馏（模型蒸馏框架、解释器模型的零样本学习、语义和结构感知的模型对齐方法）

最新推荐文章于 2024-10-18 11:21:51 发布

Code1994

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量919

点赞数 19

文章标签：语言模型人工智能大模型 LLM AI AI大模型知识蒸馏

本文链接：https://blog.csdn.net/Code1994/article/details/142411142

版权

Emory大学的研究团队提出了一种新的方法，通过知识蒸馏技术，将LLMs的强大能力转移到更小、更高效的本地图模型中，以提高TAGs的学习效率。

文本属性图（Text-Attributed Graph, TAG）学习是图神经网络和自然语言处理领域的一个重要交叉点。TAG中的节点通常由文本描述，而图结构则表示节点之间的关系。这类图结构在社交网络、推荐系统、知识图谱等多个领域具有广泛应用。然而，由于文本数据的复杂性以及图数据的异质性，如何有效地在TAG上进行学习一直是一个具有挑战性的问题。传统的图神经网络在处理TAGs时，往往依赖于大量的人工标注标签，这在许多应用中是不可行的。

近年来，大型语言模型（Large Language Models, LLMs）在自然语言处理任务中展现了强大的能力。LLMs能够捕捉文本中的丰富语义信息，并在多种下游任务中实现了显著的性能提升。然而，LLMs通常具有计算成本高、模型规模大等问题，这使得其在实际应用中存在一定的局限性。为了解决这一问题，Emory大学的研究团队提出了一种新的方法，通过知识蒸馏技术，将LLMs的强大能力转移到更小、更高效的本地图模型中，以提高TAGs的学习效率。（https://arxiv.org/pdf/2402.12022）

该研究的核心问题在于如何将LLMs的强大表现有效地转移到TAG学习中，同时克服LLMs在应用中的局限性。研究目标包括设计一个能够从LLMs中学习的中介模型，该模型能够捕捉文本中的重要信息，并将其传递给学生模型（student model）；并在保证性能的同时，减少LLMs在TAG学习中的计算开销和隐私风险。具体而言，该项研究主要包含以下内容：

1、提出了一种新的框架，通过让LLMs输出理由来训练解释器模型，然后将这些知识转移到不依赖LLMs的学生模型中。

2、提出了一种将文本理由转换为文本级、结构级和消息级理由的方法，以及使用LLMs生成的伪标签和伪软标签作为训练解释器模型的监督。

3、提出了一种语义和结构感知的TAG模型对齐方法，该方法在对齐TAG模型时保留了文本和图信息，使学生模型能够更好地与教师模型对齐。

一、模型蒸馏框架

蒸馏框架旨在解决TAG学习中传统GNN模型难以充分利用文本信息的问题。通过结合大型语言模型（LLMs）的语义提取能力和GNN的结构学习能力，本文提出了一个两步的蒸馏过程。该方法包括三个主要模块：LLMs、解释器模型（interpreter model）和学生模型（student model）。

1. LLMs：

LLMs具备强大的文本理解和生成能力，能够捕捉到输入文本中的深层语义信息。其主要作用是从文本数据中提取出丰富的语义特征。这些特征不仅包括文本的显性信息（如关键词），还包含隐性的语义结构（如上下文依赖、隐喻等）。

2. 解释器模型：

该模型的设计目的是从LLMs中学到足够的信息，并以适合本地图模型输入的方式进行表达。解释器模型通过知识蒸馏（Knowledge Distillation）的方式进行训练，即通过对比LLMs的输出和目标标签，解释器模型逐渐学会如何从文本中提取重要的特征，并将这些特征映射为适合图神经网络处理的格式。这一过程的关键在于保持信息的有效性和一致性，使得后续的学生模型能够在不依赖于LLMs的情况下执行任务。

3. 学生模型：

学生图模型是最终用于实际任务的轻量级图神经网络。该模型接收解释器模型的输出作为输入，并在TAG学习任务中进行节点分类、链接预测等操作。由于中介模型已经预处理了大量复杂的语义信息，学生模型可以专注于利用图结构中的关系信息，从而大幅减少计算资源的消耗，具有良好的高效性和可扩展性。

二、解释器模型的零样本学习

解释器模型的训练过程核心在于使用零样本学习方法，即在没有先验标签的情况下，通过文本理由（rationales）自动生成伪标签和软标签，用于将文本理由转化为图形模型中的多层次增强特征以训练图神经网络。

主要步骤包括：

1、生成伪标签和伪软标签：

利用LLMs的零样本学习能力，为每个节点生成伪标签和伪软标签，这些标签将用于生成理由并作为训练解释器模型的监督信号。过程中引入软标签（soft labels）机制，通过分析文本的深层含义来给出更加细致的标签，有助于模型更好地理解文本和图结构之间的关联。

2、关键词识别：

通过LLMs识别文本中对分类最有帮助的关键词，以增强文本特征。

3、关键链接和消息识别：

识别对中心节点分类重要的邻居节点（关键链接）和这些邻居节点中的关键信息（关键消息）。模型通过详细的文本理由来学习如何将文本信息转化为图的信息。这些理由不仅包括文本的直接描述，还包括背后的逻辑和推理过程，使模型能够在没有显式理由的情况下进行推断。

三、语义和结构感知的模型对齐方法

通过语义和结构感知的方式，可将大型语言模型（LLMs）的知识传递给图模型，以优化文本属性图（TAG）的学习过程。这个框架包括一个解释器模型和一个学生模型，两者通过特定的模型对齐方法进行知识传递，以实现在没有LLMs的情况下进行有效的预测。

1、语义对齐（semantics alignment）

语义对齐的目的是缩小解释器模型和学生模型在文本嵌入上的差异，主要包含以下步骤：

①提取文本嵌入：从解释器模型和学生模型中提取文本嵌入，这些嵌入包含了节点的文本特征。
②考虑节点度：在对齐过程中，考虑节点在图中的连接度，即其邻居节点的数量。
③计算语义相似性：使用余弦相似度等方法计算原始文本特征和LLM增强后的文本特征之间的相似性。
④最小化嵌入差异：通过优化过程，减少解释器模型和学生模型在文本嵌入上的差异。