知识图谱驱动的检索增强生成：将Deepseek-R1与Weaviate集成以实现高级聊天机器人应用_integrating deepseek-r1 with weaviate for advanced-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/145790952

From Paper：《Knowledge Graph-Driven Retrieval-Augmented Generation: Integrating Deepseek-R1 with Weaviate for Advanced Chatbot Applications》

Alexandru Lecu 计算机科学系克卢日-纳波卡技术大学数字科学与研究解决方案有限公司 克卢日-纳波卡，罗马尼亚 Alexandru.Lecu@cs.utcluj.ro
Adrian Groza 计算机科学系克卢日-纳波卡技术大学 克卢日-纳波卡，罗马尼亚 Adrian.Groza@cs.utcluj.ro
Lezan Hawizy 数字科学与研究解决方案有限公司 伦敦，英国 l.hawizy@digital-science.com

摘要—大型语言模型（LLMs）在自然语言生成领域取得了显著进展。然而，它们经常生成未经验证的输出，这在关键应用中会损害其可靠性。在这项研究中，我们提出了一种创新框架，通过检索增强生成技术将结构化的生物医学知识与LLMs结合。我们的系统通过从与年龄相关性黄斑变性（AMD）相关的医学摘要中识别和细化因果关系和命名实体来构建一个全面的知识图谱。利用基于向量的检索过程和本地部署的语言模型，我们的框架生成既具有上下文相关性又可验证的响应，并直接引用临床证据。实验结果表明，该方法显著减少了幻觉，提高了事实准确性，并改善了生成响应的清晰度，为高级生物医学聊天机器人应用提供了一个强大的解决方案。

索引词—因果关系提取、知识图谱、年龄相关性黄斑变性（AMD）、DeepSeek、Weaviate、GraphDB

I. 引言

为了对抗语言模型的幻觉，将LLMs与知识图谱（KGs）等结构化数据源结合是一种有效的策略。检索增强生成（RAG）技术将LLMs的生成能力与外部特定领域的信息结合起来，从而提高响应的可靠性和清晰度。

我们提出了一种使用知识图谱驱动的RAG方法来增强高级聊天机器人应用的系统。我们的解决方案集成了三个关键组件：存储在GraphDB中的知识图谱、使用Weaviate的基于向量的检索系统以及用于自然语言生成的本地部署语言模型Deepseek-R1:7B。知识图谱存储结构化的特定领域信息，而Weaviate则促进了从该图谱派生的嵌入的语义搜索。Deepseek-R1随后利用检索到的上下文，结合用户查询，生成准确且具有上下文感知的响应。

这种集成架构特别适用于如年龄相关性黄斑变性（AMD）等专业领域，在这些领域中必须准确捕捉和传达复杂的生物医学实体和因果关系。通过将LLM的输出锚定在一个经过验证的知识库中，我们的系统确保生成的响应既流畅又事实正确。

技术任务是从医学摘要中提取因果关系（RE）和命名实体（NER）。命名实体的研究范围限制在12个实体：(i) 疾病，(ii) 症状，(iii) 治疗，(iv) 风险因素，(v) 检测/诊断，(vi) 基因，(vii) 生物标志物，(viii) 并发症，(ix) 预后，(x) 合并症，(xi) 进展，(xii) 身体部位。我们考虑8种因果关系：(i) 原因（导致或促成另一个实体的发生），(ii) 治疗（是另一种实体的治疗或干预），(iii) 表现（是另一种实体的症状或表现），(iv) 诊断（是测试或诊断工具），(v) 加重（恶化或加剧另一种实体），(vi) 预防（预防或减少另一种实体的发生或发展），(vii) 改善（增强或改善条件或治疗），(viii) 影响（影响某个身体部位）。

图1. 知识图谱关系示例

示例1（原因关系）： 系统根据以下文本在知识图谱中识别出一种关系（见图1）：“年龄相关性黄斑变性（AMD）会导致严重的永久性中心视力损伤，是50岁以上人群失明的主要原因。”这个提取的关系链接到与其来源相关的临床试验。

1	年龄相关性黄斑变性（AMD）最常见于60至90岁之间的个体。这一信息得到了诸如NCT01778491等临床试验的支持，该试验特别指出AMD在此年龄段内的患病率。
3	关键信息：
4	主要年龄范围：60至90岁。
5	支持线索：
6	该疾病与年龄增长有关，如NCT00466076所示。
7	AMD的基因测试，例如NCT02248324中的测试，并不与主要年龄范围相矛盾，而是提供了这一年龄段内的额外诊断途径。
8	相关研究中的一致数据强烈表明，60岁到90岁之间的人群最有可能患上AMD。

列表1. 聊天机器人响应

示例2（聊天机器人依赖知识图谱来证实信息）： 当被问及“在什么年龄可能会患上AMD？”时，聊天机器人的回答如列表1所示。响应中嵌入了直接链接到文本中的超链接。当用户点击其中一个链接，例如临床试验NCT01778491的引用时，他们会被重定向到Dimensions网站上的相应页面。该页面提供了关于临床试验的详细信息，使用户能够验证聊天机器人引用的数据。在我们的实现中，这些链接以Markdown格式编写，确保信息来源既透明又易于访问。

II. 相关工作

KRAGEN [1] 是一个将知识图谱与检索增强生成相结合的框架，旨在解决生物医学领域的复杂问题。该研究强调了先进的提示方法，包括思维图，以系统地分解任务并减少大型语言模型输出中的幻觉。

Polat等人[2]研究了不同的提示工程技巧来提取知识。研究结果表明，直接的指令结合任务演示可以显著提高各种大型语言模型的提取性能，尤其是在使用检索方法选择示例时。

Muntean等人[3]调查了大型语言模型在特定眼科领域（即年龄相关性黄斑变性）中的表现。研究表明，根据Singhal等人[4]提出的评估方法，ChatGPT4和PaLM2是提供患者信息和教育的有价值的工具。然而，由于这些模型仍存在一些局限性，因此提出了一个针对年龄相关性黄斑变性的微调模型。尽管如此，通过遵循相同的步骤，这种方法可以适应其他领域。

更多的研究进一步支持将结构化知识与生成模型相结合。Lewis等人[5]介绍了检索增强生成框架，证明将大型语言模型的输出基于外部数据进行验证可以显著提高事实准确性。Wei等人[6]展示了链式思维提示可以引导大型语言模型通过多步骤推理过程，这对于复杂的生物医学查询至关重要。Yang等人[7]进一步强调，将知识图谱与大型语言模型结合可以产生更可靠和可解释的结果。

III. 系统架构

图2展示了所提出的解决方案的概述，分为三个主要阶段。在注释与数据收集阶段，使用Protege编辑器构建了一个包含与AMD相关的因果关系的本体。注释者使用CausalAMD本体对摘要中的关系进行标注，使用适当的谓词和实体类型。它还作为自动生成提示的基础，指导语言模型从摘要中提取因果关系。摘要是从Dimensions数据库(https://www.dimensions.ai/)收集的。在数据处理阶段，使用GPT-4o1-mini模型提取因果关系。在消除提取关系的歧义后，我们利用HermiT推理机[8]进行推理，并将所有推断的知识转移到由Ontotext GraphDB工具维护的知识图谱中。最后，在RAG模型阶段，使用嵌入模型将精炼的数据转换为语义向量，形成一个全面的上下文。然后，这个上下文由大型语言模型处理，为用户提供答案。总体而言，该架构集成了基于本体的注释、因果关系处理和检索增强生成，以提供准确且具有上下文感知的回答。

A. 本体工程

本体为建模年龄相关性黄斑变性（AMD）中的因果关系提供了结构化的框架，结合了生物医学概念和临床证据。它整合了实体（基因、症状、治疗）、因果谓词（引起、治疗、加重）以及来自研究出版物的来源数据。

设计的核心是实体类，它将与AMD相关的概念分类为子类，如基因、生物标志物和治疗。这些实体通过关系实例连接，定义了主语-谓词-宾语三元组，并通过PROV-O本体链接到源出版物。这确保了每个因果声明都引用了一个临床试验。

B. 丰富知识图谱

丰富知识图谱涉及从医学摘要中系统地提取、验证和整合新的因果关系的过程。系统首先使用大型语言模型处理每篇摘要，以提取因果关系的结构化表示。这些表示捕捉了关系类型、涉及实体的名称和类型以及出版物标识符，从而保留了信息的来源。

一旦提取了关系，它们将经过严格的验证程序。此步骤确保每个关系符合预定义的实体和关系的有效类型。任何差异都会通过应用消歧和规范化技术来解决。领域特定的同义词和缩写被标准化，实体类型的冲突通过选择最频繁出现或优先级最高的类型来解决。这一细化过程最大限度地减少了重复，并保持了知识图谱的一致性。验证后，精炼的关系被转换成一系列符合底层本体的RDF三元组。每个关系生成唯一的标识符，生成的三元组既包含关系数据，也包含相关的出版物详细信息。这些三元组通过动态生成的SPARQL查询插入到知识图谱中，确保新信息与现有数据无缝集成。

1) 关系提取的提示工程： 在此过程中，基于CausalAMD本体自动生成提示。该本体提供了一个与年龄相关性黄斑变性相关的实体类型和关系类型的结构化列表。

在我们的实验中，我们比较了从医学摘要中提取因果关系的不同提示策略。零样本提示仅向模型提供指令，导致输出模糊。单样本提示通过提供一个清晰的例子提高了性能，但最有效的方法是少样本方法。如我们的提示模板（见代码清单2)所示，包括多个示例有助于模型严格遵循指定的实体和关系标签，并一致地生成所需的JSON格式。

该提示指示语言模型分析摘要并以精确、结构化的JSON格式输出因果关系。该格式旨在捕获诸如关系类型、涉及的两个实体的名称和类型以及出版物标识符等细节，以保持来源。通过强制执行标准化的输出格式，提示减少了歧义，并简化了后续的验证和集成步骤。

提示通过查询本体不断更新，确保任何更改（例如添加新的实体或关系类型）都能自动反映。这种同步化—

1 你是一个AI语言模型，任务是：2 1. 实体识别：3 - 仅将文本中的实体标记为：4 - 疾病、症状、治疗、风险因素、测试、基因、生物标志物、并发症、预后、共病、进展、身体部位5 - 使用这些确切的标签；不要引入新的标签或同义词。6 实体类型定义：7 - 疾病、症状、治疗、风险因素、测试、基因、生物标志物、并发症、预后、共病、进展、身体部位8 2. 关系提取：9 - 仅基于以下关系提取这些实体之间的关系：10 - 引起、治疗、呈现、诊断、加重、预防、改善、影响11 - 使用这些确切的标签；不要引入新的标签或同义词。12 说明：13 - 一致性规则：根据提供的定义，每当实体出现时，为其分配相同的实体类型。14 - 模糊实体：如果一个实体可以属于多种类型，请参考定义并根据上下文选择最合适的类型。15 - 重要：仅使用指定的实体和关系类型标签。不要使用同义词、变体或引入新的标签。16 输出格式：17 以以下确切格式（包括单引号和大括号）呈现每个关系：18 {‘relation_type’: ‘关系类型值’, ‘entity1_type’: ‘实体1类型值’, ‘entity1_name’: ‘实体1名称值’, ‘entity2_type’: ‘实体2类型值’, ‘entity2_name’: ‘实体2名称值’}19 示例：20 文本：“AMD影响视网膜并导致视力丧失。”验证后，精炼的关系被转换成一系列符合底层本体的RDF三元组。每个关系生成唯一的标识符，生成的三元组既包含关系数据，也包含相关的出版物详细信息。这些三元组通过动态生成的SPARQL查询插入到知识图谱中，确保新信息与现有数据无缝集成。

提示通过查询本体不断更新，确保任何更改（例如添加新的实体或关系类型）都能自动反映。这种同步化—

文本: ” 21 输出 : 22 {’ r e l a t i o n t y p e ’ : ’ a f f e c t ’ , ’ e n t i t y 1 t y p e ’ : ’ d i s e a s e ’ , ’ e n t i t y 1 n a m e ’ : ‘AMD’ , ’ e n t i t y 2 t y p e ’ : ’ body part ’ , ’ e n t i t y 2 n a m e ’ : ’ r e t i n a ‘} 23 {’ r e l a t i o n t y p e ’ : ’ cause ’ , ’ e n t i t y 1 t y p e ’ : ’ d i s e a s e ’ , ’ e n t i t y 1 n a m e ’ : ‘AMD’ , ’ e n t i t y 2 t y p e ’ : ’ symptom ’ , ’ e n t i t y 2 n a m e ’ : ’ v i s i o n l o s s ‘} 24 文本 : ” 吸烟是加剧AMD进展的风险因素。” 25 输出 : 26 {’ r e l a t i o n t y p e ’ : ’ a g g r a v a t e ’ , ’ e n t i t y 1 t y p e ’ : ’ r i s k f a c t o r ’ , ’ e n t i t y 1 n a m e ’ : ’ 吸烟 ’ , ’ e n t i t y 2 t y p e ’ : ’ p r o g r e s s i o n ’ , ’ e n t i t y 2 n a m e ’ : ‘AMD p r o g r e s s i o n’} 27 文本 : ” 抗VEGF疗法治疗湿性AMD并改善视力。” 28 输出 : 29 {’ r e l a t i o n t y p e ’ : ’ t r e a t ’ , ’ e n t i t y 1 t y p e ’ : ’ t r e a t m e n t ’ , ’ e n t i t y 1 n a m e ’ : ’ 抗VEGF疗法 ’ , ’ e n t i t y 2 t y p e ’ : ’ d i s e a s e ’ , ’ e n t i t y 2 n a m e ’ : ’ 湿性AMD’} 30 {’ r e l a t i o n t y p e ’ : ’ improve ’ , ’ e n t i t y 1 t y p e ’ : ’ t r e a t m e n t ’ , ’ e n t i t y 1 n a m e ’ : ’ 抗VEGF疗法 ’ , ’ e n t i t y 2 t y p e ’ : ’ symptom ’ , ’ e n t i t y 2 n a m e ’ : ’ 视力 ’}

代码清单2. 关系提取的提示模板

与本体的同步有助于保持注释过程和因果关系提取之间的一致性。

2) 提取关系的精炼： 为了确保高质量的数据集成到知识图谱中，我们的系统采用了一个后处理管道，用于精炼和规范化从医学摘要中提取的因果关系。精炼首先进行同义词映射并移除尾随的、无信息量的词语。例如，使用预定义的同义词字典将缩写“amd”标准化为“年龄相关性黄斑变性”，同时移除尾随词语如“cnv”或“ga”以清理实体名称。负责此任务的函数将名称转换为小写，剪切空白字符，并将多个空格压缩为一个空格。

管道进一步解决实体类型分配中的不一致性。当同一实体在不同关系中带有多个标签时，系统会汇总这些出现情况，并应用优先级方案选择最合适的类型。例如，如果一个实体被标记为“症状”和“并发症”，则选择频率更高或基于预定义层次结构具有更高优先级的标签。这一步骤确保每个实体在整个数据集中具有一致的表示。

最后，系统消除重复的关系并过滤掉自关系（即实体错误地同时作为主语和宾语出现的情况），从而得到一个干净、无冗余的因果关系集。这个精炼的数据集随后用于填充知识图谱，确保集成的信息准确、标准化，并准备好进行语义查询和推理。

C. 检索增强生成 (RAG) 工作流程

检索增强生成 (RAG) 模块是连接我们知识图谱中的结构化知识与自然语言生成的核心组件。该模块旨在利用基于向量的检索和上下文丰富来在聊天机器人应用程序中提供准确、上下文感知的响应。

RAG模型通过以下方式将结构化检索机制与DeepSeek-R1 [9] 模型集成，以实时生成由策划的知识和用户输入支持的响应：

检索相关知识：结构化关系存储在GraphDB中，并通过嵌入模型转换为语义嵌入。这些嵌入捕捉了数据的内在关系和属性，实现了有效的语义搜索。
上下文丰富：这些嵌入用于构建详细的上下文，封装了底层本体和即时对话线索。这种丰富的上下文为语言模型提供了必要的背景信息，确保响应准确且相关。
答案生成：LLM处理丰富的上下文以生成连贯、上下文感知的响应。
1) 嵌入和知识检索： 在工作流程的初始阶段，结构化知识保存在一个支撑我们领域本体和实体间关系的GraphDB实例中。
然后，这些嵌入存储在Weaviate中，这是一个优化用于语义搜索的向量数据库。Weaviate模式如图3所示，由3个主要类定义：Entity类捕获实体的基本属性，如名称和类型；Publication类包含出版物名称；Relation类使用关系谓词表示实体之间的连接，包括将关系与出版物链接的引用。
该模式旨在保留知识图谱中固有的语义关系，同时便于高效的基于向量的检索。当接收到用户查询时，系统使用这些嵌入执行语义搜索，从Weaviate中检索最相关的信息片段。
2) 上下文构建： 上下文构建阶段旨在根据用户的输入动态组装信息丰富的上下文，从而生成既具有上下文相关性又基于事实的响应。
在接收到用户查询后，系统首先识别与输入语义匹配的实体。该功能是一种语义搜索机制，使用预训练的转换器模型（text2vec transformers）将输入文本转换为向量表示。然后通过计算查询向量与每个实体向量表示之间的余弦相似度，将该向量与存储在Weaviate中的嵌入进行比较。结果是一个按语义相似度排名的实体列表，确保系统捕捉到细微的意义而不仅仅是简单的关键词匹配。
一旦确定了相关的实体，下一步是通过检索关系信息来增强上下文。具体来说，系统提取这些已识别实体作为关系主语或宾语出现的前k个关系。这种方法确保上下文不仅限于孤立的实体，而是通过连接这些实体的关系得到丰富。每个检索到的关系还包括一个关联出版物的引用，提供出处并增加信息的可信度。这种与出版物的链接很重要，因为它将上下文建立在可验证的来源上，并为系统生成的响应增加了额外的可靠性层。
这个上下文形成了相关领域知识的全面快照，既捕捉了实体之间的语义关联，也包含了来自学术来源的支持证据。经过丰富的上下文随后被提供给LLM，使其能够生成具有上下文感知的响应。
3) 语言生成： 语言生成是我们过程的最后一步。在这里，语言模型结合用户的提问和额外的上下文生成清晰的答案。额外的上下文包括我们从数据搜索中获得的重要细节。这些附加信息有助于模型理解全貌。通过包含对话历史记录，系统可以回溯之前的提问并在需要时提供更详细的答案。
模型处理输入并在实时生成响应。响应由流回用户的令牌组成。最终答案随后发送给用户。此过程支持后续交互，意味着用户可以返回到之前的问题并请求更多细节。每次交互都会维护和更新对话历史记录，确保上下文得以保留。
DeepSeek-R1模型本地运行。我们使用的是Ollama提供的70亿参数的DeepSeek。本地运行模型减少了网络延迟，提供了对处理环境的更多控制，并且使用DeepSeek API的成本为零。
4) RAG应用的提示工程： 提示模板指导大型语言模型（LLM）充当专门研究年龄相关性黄斑变性（AMD）的医学研究助手。其设计通过明确的约束强制实现准确性、透明性和临床相关性。
1 你是一位高度知识渊博且值得信赖的医学研究助手，专门研究年龄相关性黄斑变性（AMD）。你可以访问以下相关数据：2 {上下文} 3 你的任务是提供关于AMD研究的详尽、准确和详细的答案。请严格按照以下指南操作：4 1. 整合和格式化可用参考文献： 5 - 仔细检查提供的数据。如果你遇到任何临床试验ID或参考编号（例如，NCT01291121），请在你的回答中包含它们。- 始终将这些引用以markdown超链接的形式呈现，使用以下格式：NCT01291121
如果附加数据包含参考ID，请确保使用此格式将其清晰地整合到您的答案中。

指示缺少参考数据时：

如果提供的上下文中没有任何参考数据或临床试验ID，请明确指出未找到额外的参考。

必要时表达不确定性：

如果您没有足够的信息来自信回答，请清楚地说明限制，并指明需要哪些额外的细节或数据。

保持准确性和完整性：

不要编造任何参考文献或信息。仅基于经过验证的数据和提供的上下文来回答。

专业且清晰地沟通：

以清晰、组织良好且专业的语气提供您的回答，确保复杂的信息易于理解和访问。请在下方开始您的回答。
提示模板首先定义了LLM的角色和范围：它必须作为可信赖的AMD专家，完全依赖于提供的上下文。临床试验ID被格式化为markdown超链接，以便用户直接验证。这样，用户可以在聊天应用程序中直接点击链接。当上下文中没有任何参考时，模型会明确说明这一限制，以避免误导性推断。
提示禁止编造参考文献或未经证实的主张。它还要求模型在上下文不足以做出自信的回答时表达不确定性，例如指出缺失的数据或相互矛盾的证据。回答必须保持专业语气，在不牺牲准确性的情况下简化复杂的医学概念。
这种提示设计解决了医学AI中的关键挑战，优先考虑透明度、可靠性和安全性。临床试验标识符被格式化为超链接，以便直接验证来源，这一功能在需要快速验证的临床工作流程中建立了信任。明确表示不确定性——通过指出缺失的数据或相互矛盾的证据——与医学研究中既定的方法一致，允许用户评估发现的置信水平。为了符合监管标准，提示严格禁止捏造声明，优先考虑患者安全而非推测性输出。通过嵌入这些原则，系统从通用语言模型转变为针对AMD研究的领域特定助手。这种一致性保证了输出符合医疗保健所需的方法论标准，使其对临床医生和研究人员都易于理解。
本项目的完整源代码可在我们的GitHub仓库中探索和贡献，您可以在此处访问：这里。此外，我们的聊天应用程序的实时版本已经上线并可以在此处测试：这里。
IV. 结论
在这项研究中，我们创建了一个创新框架，将结构化的生物医学知识与语言生成相结合，专门针对年龄相关性黄斑变性（AMD）。我们的系统利用自定义的知识图谱和领域特定的本体，从医学摘要中提取和验证因果关系，从而提高聊天机器人响应的可靠性和可解释性。通过将策划的数据与实时用户输入相结合，这种方法在减少模型幻觉和提高生物医学应用的事实准确性方面显示出潜力。未来的研究可以探讨整合更多关系细节，如负面或概率交互，以增强生物医学过程的表示。此外，扩展系统的推理能力可能会为模糊案例提供更深入的见解，促进其在不同医学领域的广泛应用。
参考文献
[1] N. Matsumoto, J. Moran, H. Choi, M. E. Hernandez, M. Venkatesan, P. Wang, and J. H.- [1] N. Matsumoto, J. Moran, H. Choi, M. E. Hernandez, M. Venkatesan, P. Wang, 和 J. H. Moore, “KRAGEN: 一种利用知识图谱增强的RAG框架，用于使用大型语言模型解决生物医学问题,” Bioinformatics, 卷 40, 期 6, 页 btae353, 2024年6月。
[2] F. Polat, I. Tiddi, 和 P. Groth, “测试用于从文本中提取知识的提示工程方法,” Semantic Web, 页 1–34, 2024年。
[3] G. A. Muntean, A. Marginean, A. Groza, I. Damian, S. A. Roman, M. C. Hapca, A. M. Sere, R. M. Manoiu, M. V. Muntean, 和 S. D. Nicoară, “对ChatGPT4和PALMS在回答与年龄相关性黄斑变性相关的患者问题时的定性评估,” Diagnostics, 卷 14, 期 14, 2024年。
[4] K. Singhal, S. Azizi, T. Tu, S. Mahdavi, J. Wei, H. Chung, N. Scales, A. Tanwani, H. Cole-Lewis, S. Pfohl 等, “大型语言模型编码临床知识,” Nature, 卷 620, 页 172–180, 2023年。
[5] P. Lewis, E. Perez, A. Piktus, F. Petroni, V. Karpukhin, N. Goyal, H. Kuttler, M. Lewis, W.-t. Yih, T. Rocktäschel, S. Riedel, 和 D. Kiela, “用于知识密集型NLP任务的检索增强生成,” 在 Advances in Neural Information Processing Systems, 卷 33。Curran Associates, Inc., 2020年, 页 9459–9474。
[6] J. Wei 等, “链式思维提示在大型语言模型中引发推理,” arXiv预印本 arXiv:2201.11903, 2022年。
[7] L. Yang, H. Chen, Z. Li 等, “通过知识图谱增强预训练语言模型以实现事实感知的语言建模,” IEEE Transactions on Knowledge and Data Engineering, 页 1–20, 2024年。
[8] B. Glimm, I. Horrocks, B. Motik, G. Stoilos, 和 Z. Wang, “Hermit: 一个OWL 2推理机,” Journal of Automated Reasoning, 卷 53, 页 245–269, 2014年。
[9] A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, C. Ruan 等, “DeepSeek-V3技术报告,” arXiv预印本 arXiv:2412.19437, 2024年。