基于知识图谱的行业问答系统搭建分几步?

知识图谱的概念首先是由谷歌提出,其目的是描述真实世界中存在的各种实体和概念,以及他们之间的关系,在真实的行业中应用时,我们需要先根据业务需求进行领域确定,然后通过正常的知识图谱构建方式,进行基础内容的搭建,最后进行实测之后进行优化处理,从而满足原本的业务需求。

构建过程主要分为:知识体系搭建、知识抽取、知识融合、知识储存和检索、知识推理、知识问答等六步。

第一步:知识体系构建

采用什么样的方式表达知识,其核心是构建一个本体对目标知识进行描述:

  • 在这个本体中需要定义出知识的类别体系;

  • 每个类别下所属的概念和实体; 

  • 某类概念和实体所具有的属性以及概念之间、实体之间的语义关系;

  • 同时也包括定义在这个本体上的一些推理规则。

第二步:知识获取

知识获取可分为结构化和半结构化数据源中的知识抽取和非结构化文本中实体的知识抽取 。

  • 结构化和半结构化数据源中的知识抽取:因为数据噪声少,这类数据源的信息抽取方法相对简单,经过人工过滤后能够得到高质量的结构化三元组。是目前工业界常用的技术手段。

  • 非结构化文本中实体的知识抽取:因为涉及到自然语言分析和处理技术,难度较大。但是互联网上更多的信息都是以非结构化文本的形式存在,而非结构化文本的信息抽取能够为知识图谱提供大量高质量的三元组事实,因此是构建知识图谱的核心技术。目前也是学术研究的重点

第三步:知识融合

知识融合是对不同来源、不同语言或不同结构的知识进行融合,从而对于已有知识图谱进行补充、更新和去重。从融合的对象看,知识融合分为知识体系的融合和实例的融合。核心问题是计算两个知识图谱中两个 节点或边之间的语义映射关系。

第四步:知识存储和查询

目前知识图谱大多是基于图的数据结构,它的存储方式主要有两种形式:RDF格式存储(以三元组的形式存储数据)和图数据库(比RDF 数据库更加通用,目前典型的开源图数据库是Neo4j)。

第五步:知识推理

目前知识推理的研究主要集中在针对知识图谱中缺失关系的补足,即挖掘两个实体之间隐含的语义关系。所采用的方法可以分为两种:

  • 基于传统逻辑规则的方法进行推理:研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题;

  • 基于表示学习的推理:采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务。这类方法优点是容错率高、可学习,缺点也显而易见,即不可解释,缺乏语义约束。

第六步:知识问答(完成最终应用)

看似简单的六步,却不知道应该怎么做?!这是现在大多数知识图谱入门者最头疼的问题。

3a1c217eb7f8ba56949dba4c7b1cb4f4.png

很多初学者认为知识图谱的入门学习比较难,不仅仅是因为知识图谱的技术栈比较长,还因为涉及到NLP、ML、Database、知识工程等多个学科知识,找不到重点,自己摸索两个月,回头看“WC,还是啥也没明白呀!”,最后越学越累……

0e745ce8bc1afbc9603d5699da7ffba3.png

深蓝学院倾心打磨了《知识图谱理论与实践》课程,由于受疫情影响,我们基于以往6期的知识图谱线下课程,迭代精品线上课程。本课程将理论基础与实践相结合,让你实现基本知识图谱的问答系统~

24659729eec3983b504d713fc3bcc676.png

实践项目

1

445feb9348466fa55d64bfb96933b1c7.png

fc7533bac9221c0aec24668d0149e8f5.png本体构建

390e90d7f8a562531fa236e3215182f7.png是基于 Java 语言开发的本体开发工具,可以用于类模拟、实例编辑、模型处理与模型交换。课程将手把手教给大家用86e90a2c27b24ee03223821e798d974f.png构建游戏相关的本体。

c83ce609a4b8b0cadbc2e236a2359199.png

2

fa3f8dfa75786af2b682bb8d44cb77d5.png

词向量表示模型

学习如何实现Word2Vec词向量表示,使用以及训练自己的Word2Vec模型,了解 Fine - turning 过程以及 hierarchical softmax 和 negative sampling 的优化策略。

48085c6317ab017272d7d8ddad91dd67.png

3

57f8667dd1472c43914a3df70420d17f.png

基于 Bert 的文本分类

首先详细介绍 Bert 代码中的 BertEmbeddings 类、 BertEncoder 类和 BertPooler 类这3个模块的实现,然后讲解如何将 Bert 用于构建文本分类器,并以 CoLA 标准数据集为例,用 Bert 实现判断给定句子是否语法正确的任务,最后给出对于不同数据集,如何在不改变代码框架基础上,实现不同的数据预处理。

75fec0051e8a70039145560aee25eb58.png

4

284446621e17352d7f68c4ff86d0fef5.png

基于 LSTM + CRF 的命名实体识别

学习如何使用 PyTorch 实现 LSTM + CRF 序列标注模型,完成快递信息抽取任务的命名实体识别,在基本模型的基础上,完成 BiLSTM + CRF 模型。在实践过程中,大家可以对比 CRF 模型与 BiLSTM + CRF 模型在命名实体识别任务的表现。

50029d88bdf2d60d3759ef0015c2db48.png

5

d96a7ca8d6cfe8a8972b8b795512b740.png

基于 CNN 与 multi - head selection 的实体关系抽取

利用 CNN 表示句子级特征,进而进行实体关系的分类,对比位置向量对模型提升的效果;进一步讲解基于 multi - head selection 的关系分类,及其在语言与智能技术竞赛中数据集上的 Pytorch 实现。

aca9a94c668b85af58b3c1501d0b79b6.png

6

fc91cfdc519e932ad72d9a2996515eae.png

D2RQ关系数据库转 RDF 

首先讲解将关系型数据转成 RDF 的多种方式,比如直接映射、R2RML映射、D2RQ映射,然后重点讲解D2RQ如何将关系型数据库当作虚拟的 RDF 图数据库进行访问的。

2dfdd55177fa9f9ae483899661445288.png

7

38a65726eeada330312b83a42796f740.png

图数据库 Jena 

介绍图数据库 Jena 的基本使用方法,学习知识图谱本体构建,掌握如何将关系数据库( MySQL )中的表转换成图数据库中的 RDF 三元组。

bfe0683bde874fdb03e0f6e86e820c84.png

8

d740f8938513bfbfc77d1c2b64f3aa83.png

基于规则的推理

基于 Jena 数据库,讲解规则的语法以及规则文件的配置,最后通过 SPARQL 查询,查询数据库中的喜剧演员名单。

db70c5acf90e943e77b9af4cc50aa73e.png

9

634771c86737ae79e964da3a1e9f8539.png

基于分布式表示的推理

学习如何实现知识图谱分布式表示模型 TransE ,讲解 TransE 的关键模型的代码实现。

d0c43bb4f7807eff2302044a8d4e0ce0.png

10

3e57bfe237184d1b9ec6149d01c1ec63.png

基于知识图谱的医药领域的问答系统

熟悉知识图谱应用的开发流程。对于医药领域的问答系统,将教给大家从数据爬虫开始,通过本体构建、RDF生成、问句解析、 SPARQL查询以及答案生成等步骤搭建完成的问答系统。

4cdf718259ac6eea057ec7a2b2b01f48.png

课程大纲

fcc5d61a16fb6bf362abbba0b4f29ec1.png

抢占优惠名额啦

扫码添加深蓝学院-子书

备注【图谱】,快速通过好友哦!

ec2b435f82a6f65275e5feeabffd41de.png

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python Django是一个用于Web应用程序开发的开源框架,可以帮助开发人员快速构建高效的网站。而基于知识图谱问答系统是一种利用知识图谱技术,根据用户提问从知识图谱中检索相关信息并给出准确回答的系统Python Django框架与基于知识图谱问答系统可以结合使用来构建一个功能强大的智能问答系统。首先,借助Django的开发框架,可以轻松搭建用户界面和管理后台。通过Django的模型和视图,可以定义和处理用户输入。其具有的灵活性和易用性使得开发人员可以更加专注于系统的核心功能和逻辑的实现。 其次,基于知识图谱问答系统需要使用图数据库来存储和管理知识图谱数据Python提供了多种图数据库的开发和访问接口,可以方便地集成到Django中。开发人员可以使用Python的图数据库接口,通过查询图数据库获取用户提问所需的数据和答案,并将其集成到Django的视图中返回给用户。 此外,Python和Django还提供了丰富的第三方库和插件,可以方便地实现自然语言处理、机器学习和人工智能等相关功能。例如,可以使用Python的自然语言处理库NLTK来对用户的提问进行词、词性标注等处理,从而更准确地检索和匹配知识图谱中的信息。 总结来说,Python Django作为一个强大的Web开发框架,可以与基于知识图谱问答系统结合使用,使得开发人员能够更加高效地构建功能完善、用户友好的智能问答系统。它结合了Django的快速开发特性和Python的丰富库支持,为基于知识图谱问答系统的开发提供了便利和灵活性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值