知识图谱构建下的自动问答KBQA系统实战-文辉

知识图谱问答系统任务和意义

问答系统(Qusstion Answering System,QA System)在大家的日常生活中随处可见,2014年微软率先推出了小冰智能聊天机器人,直至现在越来越多如siri移动生活助手和智能音箱等的面市,问答作为一种信息获取方式愈发受到大众和厂商的关注和投入。问答系统能够接受用户以自然语言形式描述的提问,并从大量的异构数据中查到或者推理出用户想要的答案。相比传统的信息检索系统,问答系统场景的核心在于用户的信息需求相对比较明确,而系统直接输出用户想要的答案,这个答案的形式可能是文档、结构化的表格或者推理加工的自然语言文本。

问答示例:

  1. 问题:阿根廷的首都在哪里 => 答案:阿根廷共和国的首都为布宜诺斯艾利斯。

  2. 问题:儿童安全锁怎么设置 => 答案:儿童安全锁位于各后车门的后边缘,各车门的儿童安全锁必须单独设置。
     

设置:

  • 左侧:逆时针转动锁定,顺时针转动解锁。

  • 右侧:顺时针转动锁定,逆时针转动解锁。
     

知识问答相比文本检索,减少了用户对检索文档内容的二次提取和推理的过程,会显著提升用户知识获取的体验。根据问答底层技术的差异,目前工程落地实现问答的技术路线基本分为基于知识图谱的问答(KBQA)、基于阅读理解的问答(MRC)和常见问题问答(FAQ)三种模式。三种问答的对比如下:

表1 常见的知识问答技术路线对比
 

FAQ和MRC不是本文介绍的重点,这里简要介绍。在FAQ中,重点是文本语义匹配的精度,如 用户的问题是“怎么加玻璃水”,而问答对库中的标准问句为“添加玻璃清洁液”,类似的泛化问题决定了常见的字符串相似度匹配无法解决,STS模型比如sentence-bert等双编码模型或者苏剑林老师的sim-bert等模型或者通过领域词典都可以解决类似泛化问题。MRC方面,基于百度dureader等中文阅读理解数据,在通用领域可以快速搭建一个MRC问答服务,但是垂直领域仍然需要标注数据来让模型的性能达到一个可以接受的水平。在垂直领域,针对MRC训练数据稀少的问题,可以从非结构化文本三元组标注的数据得到补充。如对于文本“北京,简称“京”,是中华人民共和国的首都,是全国的政治中心、文化中心,是世界著名古都和现代化国际城市。”,图谱构建过程中标注的三元组为(中国,首都,北京),构造的MRC问题即“中国的首都在哪里”,答案SPAN为“北京”的index位置。KBQA(Knowledge Base Question Answering)作为一种底层基于知识图谱的问答技术,相比传统的文本检索问答和FAQ(Frequently Asked Questions),基于垂直领域相对固定边界的知识图谱,可以结合业务提供一种高级的信息服务形式,通过确认、反馈等操作完成信息获取,现阶段下,无论是通用图谱还是领域图谱,业界对简单问答的效果都达到了一个比较好的水平,而在特定场景的领域图谱中,经过梳理,复杂问答特别是推理形式的问答也是可以达到一个比较可以好的效果。

基于知识图谱结构化关联知识的问答系统的业务价值包括:

  1. 知识的沉淀和高效复用,知识梳理更加明确直接,实现知识的瘦身和标准化;

  2. 返回的答案更能精准理解用户的意图,答案更加直接高效,避免二次推理加工;

  3. 对知识管理的维护更加方便,实体-属性-关系自然,方便增删改查;

  4. 特定业务场景下基于专家经验的复杂推理成为可能

智能问答系统技术架构

智能问答系统的整体基础框架图所示,一共分为据预处理模块、问句分析、 知识检索和答案生成四个部分。下面介绍达观知识图谱平台问答系统的一些具体的实践经验。

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值