技术动态 | 知识图谱用于问答的案例:领域智能助手项目的技术选型与落地建议...

转载公众号 | 老刘说NLP


领域智能助手是当前知识问答一个典型场景,作者之前在文章《项目实操:KBQA常规实现流程与医疗知识图谱问答源码解读》、《工程实践:基于规则模式的军事和医药领域知识图谱问答快速实现》等对该方向的工作进行了介绍,感兴趣的可以关注公众号,前往查看。

为了进一步地说明该技术在工业的落地,本文主要以实际的工业需求进行论述,从业务场景的定义、常用知识问答选型以及知识问答场景落地问答三个方面进行介绍,供大家一起思考。

一、业务场景的定义

智能搜索办公助手是当前各大银行、金融机构等的重要需求场景。例如,在公司内部,将司内各个系统数据统一,打造统一的智能搜索办公助手,通过语义理解精准定位搜索意图,返回精确搜索结果及来源。

659b88c016b48627eb6180a3b18ded9d.png

输入数据上,包括规章制度(pdf/word)、CRM、UDAS系统(结构化数据表),通过搭建智能助手,提供相应的问答功能。例如,对于文中有明确结果的,返回确切值或者返回文章中的细节段落;通过文章内表格解析,对表格数据进行问答;或者进行语义解析提供全文检索;或者直接针对结构化数据表进行数据。

二、常用知识问答选型

常用知识问答类型包括全文检索模型、FAQ问答模型以及KBQA模型三种。

第一种直接通郭关键词匹配方式返回,返回文章中的细节段落,标题检索以及多字段检索。FAQ,主要做的是

KBQA(Knowledge base question answering)是针对结构化数据的一种直截了当的问答方式,可以根据设定的问题类型,通过问句解析的方式,形成若干三元组及相关的操作条件,并转换成特定的查询语句,直接返回相应结果,是当前一种较为流行和新颖的搜索方式,KBQA方式的问答包括意图分析、标签(实体、操作符)识别、条件体与目标体识别、查询语句生成等几个关键步骤。

8cce437be25949c719eb527e0f7f5a32.png

1、FAQ类型知识问答案例

基于20W法务问答对的13类问题分类与法律资讯问答。

54406cf6c453122c25f6be4b7e8a2ff3.png

参考地址:https://github.com/liuhuanyong/CrimeKgAssitant

2、KBQA式知识问答案例

基于kg的自动问答。以疾病为中心的一定规模医药领域知识图谱,并以该知识图谱完成自动问答与分析服务。

57bfdc328c570ca4a4c5906820d8fc62.png

参考地址:https://github.com/liuhuanyong/QASystemOnMedicalKG

面向装备数据,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询。

01083aaf0a85d33aeb9769aa6f2fb846.png

参考地址:https://github.com/liuhuanyong/QAonMilitaryKG

三、知识问答场景落地问答

1、问:做一个这样的知识问答助手,需要涉及哪些技术?

答:e463a15c8f7115ffaf5bc0015147caeb.png

1)异构文档的转写技术。 包括pdf处理,表格的处理、段落分割、表格分离、图片分离。

 2)表格数据抽取与索引技术。 包括在解析文本中表格数据时,根据表格结构,可分为可拆分表格和不可拆分表格,将表格中的数据转换成可检索和标引的数据类型。
3)相似性文档搜索技术。 包括全文检索的相似度计算处理。
4)FAQ的问句匹配技术。 包括如何根据用户问句,准确找到标准问。
5)KBQA问句解析技术。 将用户自然问句转化为数据库查询语句。

85f4f0e806bb38d81deaeb26f0bc9181.png 2、问:知识点构建有何建议和思路,构建知识库时是否需要人工标注?标注的工作量是多少?

答:知识点的构建是与业务直接相关的,构建知识库前期肯定需要人工标注。
人工的标注量需要根据实际的问题样式、问答效果以及现有人力的实际情况结合着来说,要以工程的角度来思考这个知识的准备问题,数据标注包括:
1)FAQ问答集的标注: FAQ的问答对越多,所能覆盖到的问题范围就越大;
2)KBQA问答规则的标注: 业务领域词、业务同义词、问题模版的扩充;
3)全文检索文档标签的标注: 标题、表格、段落的标注。
4)问答分类数据集的标注: 针对一个问题,需要进行意图分类,如何分别进入三个模型;

3、问:对AI搜索项目有什么建议,对于AI搜索有哪些想法,如果有相似案例,可以介绍相关项目的内容、经验以及评价体系。

答:首先,实施关键点上,应该注意以下几点:
1)明确搜索的对象:受众,面向个人or面向统一平台的
2)确定问题的边界:有所问,有所不问 【尤其重要,需要将用户问题约束住】
3)根据问题找数据:结构化数据与非结构化数据,结构化数据不要贪快,逐步添加
4)关注搜索架构的鲁棒性:可接纳不同来源、格式的数据类型
5)搜索流程正规化:设计好数据的标准化、接入与通信方式
6)关注数据的安全性、更新机制和版本控制,权限管理等。

其次,需要有一些基本常识需要注意:

1)AI搜索助手没不会那么”AI”,大多时候会觉得它很“智障”
2)预期要实际:“深度学习”有所为有所不能为,需要大量的人工、规则、模板
3)平稳、可靠的AI助手的最佳方式:灵活可配置的人工参与接口,可迭代升级,尽可能减少后期维护成本额—>省心、省人力
4)功能的设计、业务的梳理、数据的整理,占据整个项目超过70%的时间
5)实施上,小步快跑,步步迭代,切勿超之过急,先做好每个细分功能点

4、问:根据现有数据,比如规章制度、数据字典、员工信息以及一些数据指标,能够做到哪些实现?能支撑哪些应用?22f01d4a8d59d055ed63726d4d0cc2c0.png

答:可支撑的应用包括FAQ搜索、规章制度全文检索、KBQA搜索、客户基本/证件信息查询、员工信息查询、债券基本要素查询、债券风险提示查询、债券违约明细查询、指标查询。

5、问:如果按方案实施,预估开发周期大概多久,查询的响应时间,可能存在的问题及难点等。

答:视具体情况而定,主要时间花费在业务数据的梳理、各种数据源的整理上。
需要考虑到风险点:
1)技术选型,当前的数据类型是否适合于搜索
2)预设的数据架构是否能够涵盖后续的数据类型,不慎会影响后期维护和扩展。
3)针对不同数据库之间的搜索,需要花费大量的人工进行数据梳理
4)针对结构化查询,需要准备大量的外部知识库(业务词典、同义词词典等)


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

f6c6834ef141916195df6b9ab85d2891.png

点击阅读原文,进入 OpenKG 网站。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【资源说明】 基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip 基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip 基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip 基于人文领域知识图谱的实体查询、关系查询及智能问答系统python源码.zip 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值