解读 Graph+AI 白皮书:LLM 浪潮下,Graph 尚有何为?

1. 背景

众所周知,图(Graph)计算技术拥有着悠久的历史,最早可以追溯到欧几里得的“七桥问题”,适用于面向客观世界的关联关系建模,有着天然的数据可解释性优势。人工智能技术自诞生以来,也历经了多次跌宕起伏,随着硬件算力的提升和大语言模型的兴起,正在带领着人类社区迈入下一个纪元。Graph+AI白皮书重点围绕着图计算与人工智能技术的结合角度,从数据、算法、应用三个维度拆解了Graph+AI技术的发展现状与未来演进。

数据层面:在图机器学习领域,衍生了图数据采样、图数据构建、图数据增强等技术,以及知识图谱领域的图数据建模与知识表示技术等。

算法层面:以图神经网络(GNN)、图表示学习为代表的方法为机器学习领域带来了新的进展。受大语言模型的启发,图基础模型(GFM)、大图模型(LGM)等通过预训练和适应性方法提升模型在各种任务中的表达能力和泛化能力。

应用层面:除了深耕多年的知识图谱、图系统优化等技术,也涌现出大量的新兴的技术结合。例如自然语言转图查询(Text2GQL)、图检索增强生成(GraphRAG),以及结合图技术的智能体(Agent)系统等。

2. 问题挑战

任何事物的发展并非是一帆风顺的,我们看到了大量的Graph+AI技术结合的机遇,也很清楚当下行业与技术上面临的问题与挑战。

图数据层面:图数据采集过程容易受到噪音影响,且噪声沿着边传播,导致危害加大。动态图和异质图对存储和计算有更高的要求。还有就是图数据的标注数据相对较少,标注成本高。复杂的网络结构和多样性导致任务需求不同,模型需要关注的信息粒度也不同。而传统的数据增强方法不适用于图数据,需要针对图数据的特征、结构、标签进行分别增强。

图神经网络层面:大规模图计算在性能方面存在显著不足,处理大规模图数据需要更高效的算法。动态图和异质图带来了额外的信息处理需求,使得模型之间的迁移和泛化能力面临严峻挑战。另外,节点的不平衡问题、图神经网络的梯度爆炸问题也会严重影响了模型的性能。

图基础模型层面:图数据集的规模和多样性还不足以支持大图模型的训练,图任务类型多样化,节点级、边级和图级任务的差异性增加了模型设计的复杂性。模型的安全与隐私问题也面临很大挑战。

知识图谱层面:作为符号化的表示和推理技术方案,在大模型出现之后,如何从知识表示和推理的角度进行协作?哪些知识应该存储于大模型中,哪些知识应该存储于知识图谱中?如何提升知识图谱技术的泛化性,以便更好地与大模型配合并保留其强大的任务泛化能力?这些都是需要解决的重要问题。

图应用层面:图查询语言标准尚未全面普及,Text2GQL的技术建设还在做初步探索。图计算系统在系统的成熟度、产品易用性和安全性上,相比于传统计算系统仍有很大改进空间。GraphRAG在一定程度上可以缓解大模型生成幻觉,但领域知识库的构建成本与表达能力仍需持续建设与改进。智能体技术的发展让大语言模型具备了一定的思考与决策能力,如何将图技术与智能体的规划、思考、行动能力进行深度结合,还需进一步探索。

3. 关键技术

3.1 图数据处理

图数据结构是最适合面向客观世界的关联关系建模模型。基本的图数据构建流程为:数据采集 - 图元素抽取 - 图数据存储。为了提升图分析的性能和鲁棒性,一般可以从结构、特征、标签维度对图数据进行增强。图采样技术可以大大降低全图计算带来的巨大时间和空间开销,常见的采样算法有随机游走、邻域采样、层次聚合采样等。

3.2 图神经网络

GNN通过深度学习的方法自动学习图的结构特征,从而提高了模型的性能和泛化能力。涉及了常见的卷积算子GCNConv、SAGEConv、GATConv等,以及池化算子SimplePool、DiffPool、gPool等。GNN通过堆叠多个图广播层为图中的每个节点生成一个包含聚合邻居信息和特征信息的嵌入表示,每一层的计算模式可以被抽象成四个计算步骤:ScatterToEdge, EdgeForward, Gather & Aggregate, Vertex Forward。在异构环境中如何进行高效的分布式训练阶段与推理,以及可信图学习也是当下热点的研究方向。

3.3 图基础模型

图神经网络和大型语言模型的融合引起了广泛的关注,图基础模型是在广泛的图数据上进行预训练并能够适应多种下游图任务的模型。其核心能力包含:缩放法则、同质泛化能力,多任务适应性、图推理能力。当下的研究路径主要围绕在:构建大规模多样化的图数据集、图结构的高效表达、增强LLM的图理解和推理能力,以及基准测试等。

3.4 知识图谱

知识图谱属于人工智能领域符号主义的典型代表,用三元组描述事物之间的复杂关系,包含图结构数据、文本数据、逻辑规则等。大语言模型在语言理解方面的突破,为知识图谱的表示、抽取、补全和服务带来新的技术变革。

首先,知识表示向着能表示更深度的语义和更广泛的语义发展;其次,知识抽取的泛化性提升和成本的降低让构建大规模知识图谱成为可能;再者,知识补全从依赖图结构的补全向着混合依赖图结构和文本的方向发展,可以更充分地利用知识图谱中图结构和语义信息;最后,知识图谱服务的方式多样性逐渐增加,除了检索查询这类传统服务方式,还发展出了辅助大模型思维链等方式。

3.5 Text2GQL

为了提升用户通过自然语言与图数据库交互的体验,将自然语言翻译为图查询语言几乎是最基本的诉求。然而图查询语言并非像SQL广泛普及,训练语料的不足和测试基准的缺失给Text2GQL带来了巨大的困难。为此,蚂蚁TuGraph团队提出了“语法制导的语料生成”策略,为高质量的GQL语料合成提供了有效的方法,并实现了完整的GQL微调链路和评估方案。实际测试下来,TuGraph团队提供的Text2GQL微调模型的测试准确率可以达到92%以上。

3.6 图系统优化

将图系统LLM相结合,可以实现更深入的语义理解、更精准的决策支持、高效的信息检索和个性化交互等。

主要目标有:

1. 查询性能优化:通过优化图数据库和图处理引擎,减少查询响应时间,提高图数据的访问效率。

2. 运维自动化:能够适应动态的数据规模和业务需求,实现系统的扩展伸缩、诊断调优。

3. 存储效率优化:合理利用存储空间,降低存储成本,同时确保数据的完整性和一致性。

4. 系统安全增强:建立完善的安全机制,防止数据泄露、误操作等安全问题。

5. 产品体验优化:提供友好的用户界面和便捷的操作方式,使图系统易于使用和管理。

3.7 GraphRAG

检索增强生成 RAG(Retrieval Augmented Generation) 是一种将检索和生成相结合的技术框架。在生成答案时,RAG不仅依赖于预训练模型的内部知识,还通过从外部知识库中检索相关信息来增强生成过程。知识库作为RAG链路的核心组件,直接影响了知识的存储与召回。融合索引可以更好地应对多样化的应用场景,GraphRAG使用了基于图谱的知识索引格式,在知识的确定性和可解释性上充分利用了图数据结构的天然优势。

3.8 智能体

尽管大语言模型已经具备了一定的思考与决策的能力,但将其与现实世界打通,具备与跟实际环境交互的能力,初步具备类人的自主工作的能力,还需要很多工作要做,包括角色、记忆、思考规划以及行动等。智能体工作流、多智能体协作、思维链等可以与图技术深度结合,充分发挥图数据在规划、编排、关联分析等方面的优势。

4. 解决方案

4.1 申请反欺诈

基于图数据库+AI的技术架构解决方案,将实时/准实时/离线多种技术场景融合,支撑在申请反欺诈场景中的各类业务需求。

4.2 企业决策智能化

基于关联分析的企业决策智能化解决方案旨在为企业提供智能化的数据关联分析决策支持,通过先进的图数据处理方法和持续的模型管理能力,帮助企业在复杂的商业环境中迅速作出明智决策。

4.3 安全风控

蚂蚁集团建设了基于图算法分析的安全风控解决方案,基于关系视角的风险描述、基于全面的风险数据,构建风险关系网络,形成风控知识图谱,实现风控全链路的图数据应用。基于蚂蚁集团TuGraph图数据管理平台,沉淀了包含图特征、图算法、图组件的一体化图运营平台,通过图数据刻画复杂风险模式,通过图计算进行即时风险防控,通过图应用实现规模化风险运营。

4.4 图异常检测

在现代数据驱动的商业环境中,随着数据量的快速增长和关系复杂性的提升,异常行为往往隐藏在复杂的关联网络中。这在金融反欺诈、网络安全和供应链管理等关键领域尤为明显。通过对数据中的节点、边及其关系进行深度分析,该方案能够识别复杂的异常模式。

4.5 图检索增强生成

悦数的图检索增强生成技术方案,旨在构建一个代理式知识库管理与知识推理应用平台,支持用户根据不同用途和特征来管理知识,并针对不同类型的知识文档采用不同的索引方式,提升了系统的通用性和可扩展性。

4.6 知识增强生成

近年来,越来越多的研究聚焦于将RAG技术融入到大语言模型中,以弥补其在事实信息上的不足,如GraphRAG,即采用图结构来优化检索机制。但即便引入RAG技术,将特定领域的知识库或事实文档提供给大型语言模型进行重新生成时,仍不能完全保证生成答案的准确性。针对以上大模型垂直领域应用的关键问题,蚂蚁集团经过了大量探索,构建了面向专业领域的知识增强生成技术框架 KAG(Knowledge-Enhanced Generation)。

4.7 知识抽取框架

蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架 OneKE。OneKE 主要聚焦基于 Schema 的可泛化信息抽取,采用了基于 Schema 的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,旨在通过提供中英双语、可泛化的大模型知识抽取,OneKE 在一定程度上具备统一、通用、可泛化的知识抽取能力。

5. 应用案例

5.1 能源电力

在某电力调度控制中心,悦数图数据库的应用极大地提升了调度控制的效率和准确性。

5.2 信用卡反欺诈

某银行信用卡中心采用了创邻科技的Galaxybase图数据库与图计算技术相结合的解决方案。这个系统整合了来自银行内部和外部的多种数据,建立了一个覆盖数十亿条记录的信用卡申请网络图谱。

5.3 存款流失预警

基于TuGraph图系统建设的分析系统,可以通过账户的交易和联系,挖掘更多特征,用于学习预警模型。除个体维度的特征外,增加账户交易的特征,捕捉账户间联系,自动学习拓扑模式,建立更加精准的分类模型。

5.4 交易风控

通过基于图计算思想的子图模式匹配算法(Subgraph Pattern Matching),可以将多个节点(账户、交易、联系信息)和边(交易流、联系链)构成的关系图作为一个整体进行分析,识别出与典型洗钱网络类似的子图,从而挖掘出整个洗钱的模式与结构,帮助银行快速定位团伙。

5.5 跨境电商风控

利用图风控技术充分挖掘案件定性相关的交易信息,实现更快更准的风险定性。在国际电商场景中,盗卡风险分为无关联性的单点风险和呈现批量性的团伙风险。

5.6 芝麻信用

基于TuGraph图智能模型,构建基于半监督中介拓展的团伙识别框架,不再仅仅关注一层的风险,而是通过资金、媒介等关系,提取租赁用户的历史交互子图。

基于TuGraph建设的职业图谱,统一各场景数据,还能完善用户画像,有助于带来场景增益、提升用户人岗匹配的效果。

5.7 犯罪网络检测

在犯罪网络分析领域,图技术展现出了独特的优势。它通过节点、边和属性的结构,能够直观而有效地展示各实体之间错综复杂的关系和交互模式。ArcNeural不仅具备强大的图数据处理能力,还可以同时处理文本、图像、音频等多种数据类型,为犯罪网络检测提供了全方位的技术支持。

5.8 游戏

为了更全面地刻画游戏,腾讯构建了名为“游谱”的游戏垂直领域知识图谱,这是一个多模态的知识图谱,汇聚了全球约 200 万款游戏实体,涵盖主机、PC 和手游三大类游戏。通过多模态知识图谱的构建,能够更深入地理解游戏,并为游戏推荐、评估、运营等场景提供更精准的数据支持。

5.9 地球科学

利用大模型的数据汇聚、理解与推理能力,从海量科学文献中自动挖掘有价值的实体、关系及属性,辅助科学家建立地学全领域最完整的知识图谱和有学科纵深的地学知识体系。同时,利用知识图谱对地学学科体系化的建模与表示,为大模型提供可靠的信息检索服务,能有效提升模型的分析推理能力,在关系推理、逻辑推理和推断任务中提高准确性,减少大模型的幻觉,提高可解释性。

5.10 生命科学

通过将科学事实、理论、实验数据、研究成果及科学家之间的关联以图谱的形式组织起来,生命科学知识图谱能够增强科学理解的深度、促进新发现以及加速科学传播,为解决复杂科学问题提供强有力的支持。

5.11 物理学

无论是在宏观还是微观,大量的物理系统都可以构建成图,并通过图神经网络进行模拟。

5.12 材料学

将晶体或者多晶构建成图,通过训练图神经网络来实现性质的预测,以及给定材料性质的结构生成。

5.13 运筹学

运筹学中大量组合优化问题可以用图来表示。借助图神经网络提取优化问题的特征,以更有效地用求解器求解这些问题。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值