KAG 技术实践分享｜信创环境下实现高效知识图谱抽取

最新推荐文章于 2025-04-08 15:58:23 发布

可信AI进展

最新推荐文章于 2025-04-08 15:58:23 发布

阅读量746

点赞数 21

文章标签：知识图谱人工智能

本文链接：https://blog.csdn.net/m0_56647251/article/details/144419760

版权

本文来自社区用户的投稿，如果你也在使用 KAG，欢迎参与社区有奖征文活动。

作者：蒋涛，原出版总署内容科技国家重点实验室技术负责人，中宣部首批组团式援藏组组长。政务图谱实施专家，累计实施十余医院、军队、政府、档案、制造图谱项目。

知识图谱和图计算这几年的热度可能仅次于大模型。团队本身在这几年累计实施医院、军队、政府、档案、制造等图谱项目十几个。

做过图谱的朋友都知道，三大难题：原始内容处理、数据治理、知识抽取。

其中知识抽取是难上加难。

如果运气好遇到原始数据就是结构化知识的项目，难度几乎可以忽略不计；遇到从千奇百怪内容中抽取知识并治理的项目，能不能交付全凭业主单位有没有足够同情心。

今年是这个领域技术爆炸的一年。

在今年之前，基本只有两类知识抽取方式：一是写程序，二是机器学习。

机器学习知识抽取

机器学习抽取知识以浙大 deepke 等为典型代表：标注数据、训练模型、预测三部曲。

但我们都知道，机器学习的本质是用数学计算因果关系。搞人脸、语音识别这样特征明显、因果可信的领域还行；用机器学习来搞语言中的知识，复杂度完全跟不上的，不然怎么会诞生大语言模型？不然维特根斯坦最著名的名言为什么是“语言即世界”？想想很有道理：宇宙的上限是数学、人类的上限是语言。

你说语言得有多复杂？不知道维特根斯坦是不是偷偷读过《道德经》：“道可道，非常道”：第一个“道”是数学，第二个“道”是语言。传统机器学习用在知识抽取，我们前些年深受其害，业主想来个高大上的“人工智能”，但交付的都是“人工智障”。后来我们尽量不提这个事，系统上的“文档抽取”“抽取模型”菜单也都偷偷删掉了。

写程序知识抽取

可信的只剩下写程序这一个选择，我们这几年也是逼出了各种花样：用正则、用字典枚举、用锚点加 xy 坐标定位、再用他们各种花样组合、再加各种逻辑判断。但这些都要求知识有明显结构特征。再不行我们上海量规则、上制造海量规则的工具、再加算法挑最可信的（相当于机器学习是从果推因，我们是从因遍历）。但不管怎么折腾使用场景都局限于文字结构必有特征。

今年大模型起来后，这个局限终于打破！

大模型知识抽取

一开始是直接上提示词，试过有朋友都知道，明显要人工再审核。

大模型组合其他技术知识抽取

今年 7 月我们结合向量计算、结合事前约束、事后判断第一次实现了免审核可信抽取！

不过在政府、军队等项目中，上面的技术突破没有太大实际意义。因为涉密环境没法调用第三方在线大模型服务，而自己搭建72b参数模型完成全套抽取，至少要 8 张 4090 卡组成的计算集群，信创环境下就别想了，国产 gpu 目前最多跑跑 ocr。

敢想的单位我们也一直劝阻，怕他们看到 1 万瓦的服务器功率，再配套四台柜式空调 24 小时散热，成为国家电网大客户而骂我们。两个项目都陷入这种僵局。国产服务器最多装 3B 大模型，这么小的参数量能抽取什么效果，大家都能想象到。所以当上月 KAG 推出时，我抱着“不可能，绝对不可能！”的心态体验一把，当场沉默了。

然后立即模拟国产服务器的性能组装了一套服务器，试了更多考虑项。

然后第二天清空后备箱拉上服务器、分别拉到两个城市和业主演示 KAG，商量全面更换技术路线。业主赞不绝口，困扰几个月的 4090 卡执念终于放下了，电费也保住了。

蚂蚁 KAG 分析

蚂蚁 KAG 有两点对我们特别有用，一是信创环境下，用 3B 大模型就能抽取出一般用 72B 才能达到的效果。二是除了按预先设计好的图数据库结构抽取，也经常存在无法提前设计图结构的抽取场景，只有 KAG 能支持。

另外预测将来可能会有用的一点：当使用场景为某个专业领域、通用知识抽取无法达到要求时，大模型微调成本是无法接受的，至少一套 h100 服务器两百多万，关键效果奇差，可以理解成玩天黑请闭眼，微调是天黑学到的东西，抽取是天亮开口辩论，天黑（微调）的事是不能直接说的，只能根据被抽取内容本身（天亮后的线索）来进行抽取。

而 KAG 提供了更低成本、更好效果的特定领域解决方案，过两个月我应该会遇到这种需求去学习 knext 等。向蚂蚁知识图谱团队无私奉献、开源分享致敬！对于我们团队来说，这两个月已经有两个无法交付的政府图谱项目，由于 KAG 项目的推出而柳暗花明，也由衷感谢蚂蚁知识图谱团队近期在低参数大模型抽取可信、国产服务器队列优化等细节中给我们提供很多专业指导，让我们能够在这些项目中迅速调整整体技术路线。

最近太忙还没来的及研究 KAG 实现路径，从直觉上来感觉：此前主流的大模型抽取技术路线是各种措施增加大模型负担。蚂蚁 KAG 是各种措施减轻大模型负担。比如向量数据库直接省略了，向量化数据直接成为图数据一个属性。与此属性并列还生成了“desc”属性存储概括这个实体的一段文本。大模型推理、向量计算、文本 ES 检索、图计算、符号逻辑判断，六神合体。