知识图谱的7个技术要素

知识图谱是典型的交叉技术领域,在人工智能和机器学习领域,传统符号知识表示是知识图谱的重要基础技术。

深度学习、表示学习等领域与知识图谱的交叉产生了知识图谱嵌入、知识图谱表示学习等交叉领域。

在传统的自然语言处理领域,从文本中自动化识别实体、抽取关系、检测事件等信息一直是研究热度比较高的课题,Knowledge Base Population即是知识图谱与自然语言处理之间产生的交叉领域。

在数据库领域,知识图谱与数据库的交叉又产生了图数据库,而图嵌入、图挖掘等数据挖掘领域的方法也广泛地被用来处理知识图谱数据,典型的图数据库比如neo4j,nebula,galaxbase,腾讯图数据库等。

知识图谱同样也具有互联网基因,最早的商业落地应用即是搜索引擎,在互联网和信息获取等领域的会议中也会看到很多知识图谱相关的学术论文,目前一些前沿的搜索引擎(比如360AI浏览器)也会呈现图结构的搜索结果,将会改变传统的搜索方式。

除此之外,计算机视觉、物联网和区块链等领域也都能时常见到知识图谱的影子,当然除了专业研究领域人员,一般人很少接触到这类信息,离商业化也还有一定的距离。

知识图谱涉及的技术要素可以分为表示、存储、抽取、融合、推理、问答和分析等几个方面。

从表示的维度,涉及最基本的属性图表示和RDF图模型,以及更复杂知识的OWL本体表示和规则知识建模。

从存储的维度,涉及怎样利用已有的关系数据库存储知识图谱,也涉及性能更高的原生图存储、图查询语言等。

从抽取的维度,涉及怎样从文本中抽取概念、识别实体以及抽取三元组和事件等更为复杂的结构化知识。

从融合的角度,涉及怎样实现本体映射和概念匹配,以及实例层的实体对齐等技术。从推理的角度,涉及基于传统符号逻辑的推理技术,以及新兴的基于表示学习和神经网络的推理技术。

从问答的角度,涉及问句理解、语义解析、答案生成和实体链接等多个智能问答领域的技术。

从分析的角度,涉及传统的图算法,以及利用图嵌入、图神经网络等技术对知识图谱数据进行深度挖掘和分析等方面的技术。

其他还包括知识图谱的众包技术,在计算机视觉领域的Scene Graph的构建,以及Semantic IoT等。

1.基于图的知识表示

最常用的知识图谱表示方法有属性图和RDF图两种。这两种表示方法都基于一个共同的图模型——有向标记图(Directed Labeled Graph),知识图谱就是基于有向标记图的知识表示方法。

以RDF图模型为例具体介绍,知识图谱的最基本组成单元是三元组。一个三元组包含(Subject,Predicate,Object)三个部分,即主语、谓语和宾语。例如,“浙江大学位于 杭州”就可以简单地用一个三元组表示。一条三元组代表了对客观世界某个逻辑事实的陈述。这些三元组头尾相互连接形成了一张描述万物关系的图谱。从这个角度来看,三元组实际上是最简单而且最接近于人的自然语言的数据模型,而图的信息组织方式又更接近人脑的记忆存储方式。

2. 图数据存储与查询

图数据库充分利用图的结构建立微索引。这种微索引比关系数据库的全局索引在处理图遍历查询时更加廉价,其查询复杂度与数据集整体大小无关,仅正比于相邻子图的大小。因此在很多涉及复杂关联和多跳的场景中得到广泛应用。这里需要说明的是,图数据库并非知识图谱存储的必选方案。

3. 知识抽取

知识图谱的构建一般多依赖于已有的结构化数据,通过映射到预先定义的Schema或本体来快速地冷启动。然后利用自动化抽取技术,从半结构化数据和文本中提取结构化信息来补全知识图谱。涉及D2R映射,表格及列表数据抽取,从文本中识别实体、关系和事件等。需要特别说明的是,目前完全自动化地抽取高质量的知识仍然是无法做到的,“机器抽取+人工众包”仍然是当前知识图谱构建的主流技术路线。

4. 知识融合

在知识图谱的构建过程中,很多时候都需要使用数据融合技术将多个来源数据中的实体或概念映射到统一的命名空间中。主要包含两个层面的融合,一个是在本体概念层面,例如两个不同的知识图谱用到的概念,其中一个定义的Rock Singer是另外一个定义的Singer类的子类。另一个是在实体层面,例如同一个人在不同的数据集中用的名字是不一样的。基于表示学习的方法是当前实现知识图谱异构融合的主流技术。

5. 知识推理

推理是知识图谱的核心技术和任务,知识图谱推理的目标是利用图谱中已经存在的关联关系或事实来推断未知的关系或事实,在知识图谱的各项应用任务中发挥着重要作用。推理可以用来实现链接预测、补全缺失属性、检测错误描述和识别语义冲突,以提升图谱质量等。

在查询和问答中,推理可以用来拓展问句语义,提高查询召回率。在推荐计算中,推理可用来提升推荐的精准性和可解释性。推理在深度语言语义理解和视觉问答中也扮演着必不可少的角色。凡是包含深度语义理解的任务都会涉及推理的过程。当前,在知识图谱中实现推理大致可以分为基于符号逻辑的方法和基于表示学习的方法。传统基于符号逻辑的方法的主要优点是具备可解释性,主要缺点是不易于处理隐含和不确定的知识。基于表示学习的方法的主要优点是推理效率高且能表征隐含知识,主要缺点是丢失可解释性。

6. 知识问答

问答是利用知识图谱数据的主要形式之一。一个典型的问答处理流程涉及对问句的语义解析,即把自然语言问句解析为更易于被机器处理的逻辑表示或分布式表示形式,再将问句的语义表示与知识图谱中的节点进行匹配和查询,这个过程中可能还需要叠加推理,对结果进行放大,最后再对候选的匹配结果进行排序,并生成对用户友好的答案形式。知识图谱问答有很多种不同的实现形式,也会在知识图谱问答章节对相关基本技术进行介绍。

7. 图算法与知识分析

知识图谱作为一种基于图结构的数据,可以充分地利用各种图挖掘与分析算法对知识图谱进行深度的挖掘和分析。包括常见的基于图论的一系列算法,如最短路径搜索、子图识别和中心度分析等,也包括图嵌入、图神经网络等图表示学习方法。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值