摘要:本文深入剖析 GB/T 42131 - 2022 标准,阐述其制定背景与目的,详细解读知识图谱技术框架的构成要素,包括数据层、模式层、知识抽取、知识融合、知识存储与检索以及知识推理等方面的技术要求,探讨该标准对人工智能领域知识图谱技术发展、应用推广以及行业协同创新的重要意义,为相关从业者和研究人员全面理解与应用该标准提供参考。
关键词:GB/T 42131 - 2022;人工智能;知识图谱;技术框架
一、引言
在人工智能蓬勃发展的时代,知识图谱作为一种强大的知识表示和处理技术,在众多领域展现出巨大的应用潜力。GB/T 42131 - 2022《人工智能 知识图谱技术框架》标准的发布,为知识图谱技术的规范化发展提供了重要指引,有助于推动人工智能技术的整体进步与广泛应用。
二、标准制定背景与目的
(一)背景
1. 知识图谱技术兴起
随着互联网数据的爆炸式增长以及人工智能对知识处理需求的日益迫切,知识图谱技术应运而生。
它能够有效地整合和组织海量结构化知识,为智能搜索、智能问答、推荐系统等应用提供有力支撑。
然而,在知识图谱技术的快速发展过程中,缺乏统一的技术框架和标准规范,导致不同研究机构和企业在知识图谱的构建、应用等方面存在差异,技术交流与协同面临障碍。
2. 多领域应用需求
知识图谱技术在智能医疗、金融风控、智能交通、工业制造等多个领域都有着广泛的应用前景。
例如,在医疗领域,可用于疾病诊断辅助、药物研发知识整合;在金融领域,助力风险评估与欺诈检测。
为了满足不同领域对知识图谱技术的精准应用需求,建立统一的技术框架标准成为当务之急。
(二)目的
1. 规范技术框架
构建一套全面、系统的知识图谱技术框架,明确知识图谱从数据获取到知识应用的各个环节的技术要求和规范,使不同的开发者和使用者能够在统一的框架下进行知识图谱的构建、优化和应用,提高知识图谱技术的通用性和兼容性。
2. 促进技术发展
通过标准的引导,促进知识图谱技术在数据处理、知识表示、推理算法等方面的深入研究和创新发展。为技术研发人员提供清晰的技术路线图,鼓励他们在标准框架内探索新的方法和技术,提升知识图谱技术的整体水平。
3. 推动行业应用
方便企业和开发者将知识图谱技术更好地应用于各个行业,降低技术应用门槛,提高应用效果和可靠性。促进不同行业之间基于知识图谱技术的交流与合作,形成良好的产业生态环境,加速人工智能技术在各行业的落地生根。
三、知识图谱技术框架构成要素
(一)数据层
1. 数据来源
知识图谱的数据来源广泛,包括结构化数据(如数据库中的表格数据)、半结构化数据(如 XML、JSON 格式的数据)和非结构化数据(如文本、图像、音频等)。
例如,在构建一个电影知识图谱时,结构化数据可能来自电影数据库中的电影名称、导演、演员等信息;半结构化数据可以是网页上关于电影的介绍信息;非结构化数据则是电影评论、新闻报道等文本内容。
2. 数据预处理
针对不同来源的数据,需要进行预处理操作。对于文本数据,可能包括文本清洗(去除噪声、停用词等)、分词、词性标注等;对于图像数据,需要进行图像识别、特征提取等预处理步骤。
其目的是将原始数据转化为适合知识抽取的形式,提高数据质量和可用性。
(二)模式层
1. 本体构建
本体是知识图谱的概念模型,定义了知识图谱中的实体类型、关系类型以及属性等。例如,在一个生物知识图谱中,本体定义了生物物种、基因、蛋白质等实体类型,以及它们之间的相互关系,如基因与蛋白质的编码关系、生物物种之间的进化关系等。本体构建需要领域专家参与,确保概念模型的准确性和完整性。
2. 词汇表与命名空间
建立词汇表和命名空间,对知识图谱中的术语和实体进行统一命名和管理。这有助于避免术语歧义,提高知识图谱的可读性和可维护性。
例如,在不同的知识图谱应用中,对于“苹果”这个概念,如果没有统一的命名空间,可能会与水果“苹果”或科技公司“苹果”产生混淆。
(三)知识抽取
1. 实体抽取
从文本或其他数据来源中识别出特定领域的实体。例如,在新闻文本中抽取人物、地点、组织等实体。常用的方法包括基于规则的方法、基于机器学习的方法(如条件随机场、深度学习模型等)。例如,利用深度学习模型对大量新闻文本进行训练,可以自动识别出文本中的实体。
2. 关系抽取
确定实体之间的关系。比如在一篇科技文献中抽取“发明”“合作”等关系。关系抽取方法可以基于模式匹配、监督学习(如支持向量机、神经网络等)或无监督学习(如聚类分析)等。
例如,通过监督学习训练模型,根据文本中的语义特征判断两个实体之间的关系类型。
3. 属性抽取
抽取实体的属性信息,如人物的年龄、性别、职业等。属性抽取可以与实体抽取和关系抽取相结合,采用类似的技术手段,从数据中提取出实体的各种属性值。
(四)知识融合
1. 本体对齐
当整合多个知识图谱或不同来源的知识时,需要进行本体对齐操作。确保不同本体中的相同概念能够对应起来,例如,将两个不同医学知识图谱中的“心脏病”概念进行对齐,使它们在知识融合后的图谱中表示一致。本体对齐方法包括基于词汇相似度、结构相似度等多种方法的综合运用。
2. 实例匹配
对不同知识源中的相同实例进行匹配和合并。例如,在整合多个电商知识图谱时,将不同图谱中关于同一商品的信息进行匹配,去除重复信息并整合为完整的商品知识。实例匹配可采用基于属性相似度、基于图结构相似度等方法来确定两个实例是否相同。
(五)知识存储与检索
1. 存储模型
知识图谱可以采用多种存储模型,如基于图数据库(如 Neo4j)、关系数据库(如 MySQL)或混合存储模型。图数据库适合存储知识图谱的实体和关系结构,能够高效地进行图遍历和查询;关系数据库则在处理大规模结构化数据方面有一定优势。
例如,对于一个社交网络知识图谱,图数据库可以快速查询用户之间的社交关系,而关系数据库可用于存储用户的基本信息等结构化数据。
2. 索引与检索技术
建立有效的索引机制,提高知识图谱的检索效率。例如,针对实体名称、属性值等建立索引,以便快速定位和获取相关知识。
检索技术包括关键词检索、语义检索等。语义检索能够根据用户的查询意图,理解语义关系,返回更精准的知识结果,如根据用户查询“苹果公司的创始人”,能够准确检索出相关人物信息。
(六)知识推理
1. 基于规则的推理
利用预先定义的规则进行推理,如在一个家族关系知识图谱中,定义“父亲的父亲是祖父”这样的规则,通过推理可以得出家族成员之间的间接关系。基于规则的推理具有可解释性强的优点,但规则的制定需要领域知识和人工维护。
2. 基于机器学习的推理
采用机器学习算法进行推理,如利用深度学习模型学习知识图谱中的语义和逻辑关系,预测实体之间的潜在关系或属性值。
例如,根据已知的电影类型和观众评分,通过机器学习模型预测某部未上映电影的可能评分或受众群体。基于机器学习的推理能够自动学习复杂的关系模式,但解释性相对较弱。
四、标准对人工智能领域的意义
(一)技术发展推动
1. 研发方向指引
为知识图谱技术的研发人员提供了明确的技术框架和方向指引。在数据层、模式层等各个环节的标准规范下,研发人员可以更有针对性地开展技术研究,如探索更高效的数据预处理算法、更精准的知识抽取模型、更强大的知识推理引擎等,促进知识图谱技术在各个方面的深入发展。
2. 技术整合与创新
有助于不同技术模块在知识图谱技术框架内的整合与协同创新。例如,促进数据处理技术、机器学习算法、存储技术等在知识图谱构建和应用中的有机结合,推动形成新的技术解决方案和创新应用模式,提升知识图谱技术的整体效能。
(二)应用推广促进
1. 降低应用门槛
企业和开发者在应用知识图谱技术时,可以依据标准框架进行系统构建和应用开发,减少了技术摸索和试错成本,降低了知识图谱技术的应用门槛。无论是大型企业还是中小企业,都能够更便捷地将知识图谱技术引入到自身业务中,如在客户关系管理、产品推荐等方面的应用。
2. 提高应用效果
由于标准规范了知识图谱技术的各个环节,使得应用的可靠性和准确性得到提高。在不同行业的应用中,能够更好地满足业务需求,如在医疗领域辅助诊断的准确性提升、在金融领域风险评估的可靠性增强等,从而促进知识图谱技术在更多领域的广泛应用。
(三)行业协同与交流
1. 统一技术语言
为人工智能行业提供了统一的知识图谱技术语言和规范,方便不同研究机构、企业之间的技术交流与合作。
在标准框架下,各方能够更好地理解彼此的技术方案和应用成果,促进知识共享和经验交流,避免因技术标准不一致而导致的沟通障碍。
2. 产业生态构建
有利于构建知识图谱技术的产业生态系统。在统一标准的基础上,吸引更多的企业、开发者、研究机构参与到知识图谱技术的研发、应用和服务中,形成完整的产业链条,从数据提供、技术开发到应用服务等各个环节实现协同发展,推动人工智能产业的整体繁荣。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。