【知识图谱 赵军 学习笔记】第十章 知识问答与对话


目前的问答和对话系统大多只能回答事实性问答,不能很好处理复杂问题

自动问答概述

检索式问答技术:利用浅层自然语言处理技术分析问题,并利用信息检索等技术从大规模文本或网页库中抽取答案 ⇒ \Rightarrow 难以准确理解用户查询意图进而提取出有用的信息
两大困难:缺乏高质量的知识资源和高效的自然语言分析技术
典型的问答系统可分为(根据所依赖的数据源分类):① 单文本问答系统/阅读理解式问答系统 ②固定语料非结构化文本问答系统(系统从预先给定的文本语料库中检索和抽取答案) ③网络问答系统(从互联网中查找问题的答案,难以评测) ④知识库问答系统/知识问答和基于知识图谱的问答系统(从预先建立好的结构化知识库中查找问题的答案)

知识问答

知识问答技术概述

结构化查询语言的优点:表达能力强,可以满足用户精细的信息需求
缺点:用户需要掌握结构化查询语言的语法,还要充分了解知识库中的资源表示形式

分类:

  • 语义解析类型(基于语义解析的方法):把自然语言问句自动地转换为结构化查询语句,直接通过检索知识图谱得到精确答案
  • 搜索排序类型(基于搜索排序的方法):首先通过搜索与相关实体有路径联系的实体作为候选答案,然后利用从问句和候选答案提取出来的特征进行比对,进而对候选答案进行排序得到最优答案

基于语义解析的方法

把问句转换为某种规范的形式化知识表示问句,实质是问句的语义解析(语义解析:把一个自然语言句子映射为某种形式化的语义表示,根据应用领域的不同而不同)
面向知识图谱的问句解析:利用知识图谱中的资源项(实体、关系、类别等)表示自然语言问句的语义,并以逻辑公式等形式化语句进行语义表示的任务,首先对问句中的词/短语与知识图谱中的资源项(词汇表)进行映射;然后对匹配到的资源项进行组合,最后对匹配和组合过程中存在的歧义进行消解,选择最正确的组合结果。
应用ATISCLangGeoQuery
分类:基于训练数据的有监督方法基于规则/先验知识的无监督方法

有监督方法

分为:语义组合模型基础辞典的构造方法

语义组合模型

组合范畴语法(CCG)是一种有效的、表达能力强的语义组合语法形式,能处理长距离依赖等多种自然语言现象。
主要思想:把词的句法和语义信息组合在一起形成分析的基础辞典,依据组合语法规则自底向上对自然语言句子进行解析
核心:辞典,包括语义组合过程中所需的全部语法和语义信息
辞典项标记为: w : = s : l w := s : l w:=s:l,表示词/短语 w w w具有句法类型/范畴 s s s,并且相应的语义表达式为 l l l

CCG主要包括如下两个基本组合规则
(1) X / Y : f X/Y:f X/Y:f Y : g ⇒ X : f ( g ) Y:g \Rightarrow X:f(g) Y:gX:f(g) ( > ) (>) (>)
(2) Y : g Y:g Y:g X X X \ Y : f ⇒ X : f ( g ) Y:f \Rightarrow X:f(g) Y:fX:f(g) ( < ) (<) (<)

语义辞典构造
组合消歧模型

无监督方法

典型的转换过程:
① 问句分析:把自然语言问句转换成查询语义三元组的形式
②资源映射:对三元组中的每个短语,确定其在知识库中的对应资源
③形式化查询语句的生成:对不同类型的问题依据不同的模板生成SPARQL语句

PowerAqua使用流水线式框架,有四个步骤:① 语义分析工具模块 ②元素级匹配模块 ③三元组映射模块 ④融合和排序模块

基于搜索排序的方法

把主题实体在知识图谱中通过关系或者路径链接的实体提取出来作为候选答案,因此需要对这些候选答案中选择正确的答案

检索式方法直接在知识图谱中检索候选答案并按照匹配程度排序,选择排序在前面的若干答案作为最终答案。给定问题和目标知识图谱,首先问答系统需要识别问句中的主题实体;然后根据该实体在知识图谱中遍历得到后选答案;最后,分别从问句和候选答案中抽取特征表示,训练过程需要根据<问题,答案>数据学习匹配打分模型,测试过程则直接根据训练得到的模型计算它们之间的匹配得分。

分类
基于特征工程的方法
基于表示学习的神经网络方法

基于特征工程的方法

对问句和候选答案定义特征,并使用特征工程的方法抽取它们,最后基于特征匹配的分类模型对问题-答案匹配程度进行建模
步骤:从问句中提取特征 ⇒ \Rightarrow 从候选答案中提取特征 ⇒ \Rightarrow 利用它们进行匹配程度的计算

问句特征抽取

首先对问句进行句法分析,得到其依存句法树
再进一步提取抽象特征,主要包括:①问题词(qword) ②主题词(qtopic):找到知识图谱中相关的知识点,一个问题可能存在多个主题词 ③问句焦点词(qfocus):指答案的类型 ④中心动词(qverb)
通过对问题提取问题词、焦点词、主题词和中心动词这四个问句特征,将问题的依存句法树转化为问题特征图

候选答案特征提取

可以提取的答案:该节点的所有关系rel,该节点的所有属性prop,它们对应的值

问句-候选答案匹配

基于表示学习的神经网络方法

通过表示学习方法,模型将用户用自然语言表示的问题转换为一个低维空间中的数值向量,同时把知识库中的实体、概念、类别以及它们之间的关系表示为同一语义空间中的数值向量 ⇒ \Rightarrow 知识问答任务可看成是问句的表示向量与候选答案的表示向量匹配程度计算的过程

Question Answering with Subgraph Embeddings

常用评测数据及各方法性能比较

  • ATIS:为美国和加拿大航空服务的知识库人机接口,包含了一些城市和航班信息
  • GeoQuery:美国地理信息知识库
  • QALD:CLEF上的一个评测子任务
  • Free917:917个问句 Freebase
  • WebQuestions

知识对话

通过多轮人机交互满足用户的需求、完成具体任务等,也被称为口语对话系统/人机对话系统

特征:

  • 多角色切换:对话中通常由两个甚至多个角色,在对话过程中,各角色之间常常交替变化
  • 连贯性:对话的前后内容是有关联的、有逻辑的
  • 多模态

常用的对话系统:限定领域的任务导向型对话系统开放领域的对话系统

知识对话技术概述

一般由以下六个组成部分:

  • 语音识别:负责接收用户的输入信息,把输入的语音数据转换为计算机方便表示和处理的文字形式
  • 对话理解:负责对用户的输入信息进行分析处理,获得对话的意图
  • 对话管理:根据对话的意图做出合适的响应,控制整个对话过程,使用户与对话系统顺利交互,解决用户的问题 ⇒ \Rightarrow 对话系统的核心步骤
  • 任务管理:根据具体任务管理对话过程所涉及的实例型知识数据和领域知识
  • 对话生成:负责将对话管理系统的决策信息转换为文本结构的自然语言
  • 语音合成:将文本结构的信息转换为语音数据发送给用户

对话系统的分类:

  • 任务导向型系统:用户在使用时有确定的目标,一般为完成确定任务
  • 通用对话系统:用户没有具体目标,可能在多个任务之间切换

任务导向型对话模型

自然语言理解

将文本数据表示的信息转换为可被机器处理的语义表示

难点问题:

  • 同样的意思具有不同的表达方式
  • 相同语言在不同语境下的语义可能不同 ⇒ \Rightarrow 不确定性
  • 存在不规范、不流畅、重复、指代甚至是错误等情况

基于模板的自然语言理解只适合相对简单的场景,方便快速地开发一个简单可用的语义理解模块

对话管理

核心部分

基于有限自动机的方法

把任务完成过程中系统向用户询问的各个问题表示为状态,整个对话可看为状态之间的转移
对话过程中,用户的输入对应着特定“槽”的信息,系统根据用户输入的信息从当前状态转移到下一个状态,当任务完成时,即完成了一次对话的交互

基于框架的方法

获取/填充任务对应表中各个“槽”的值
只要能通过用户提供的值确定记录,就能完成任务

基于概率模型的方法

马尔科夫决策过程

自然语言生成

分为两个部分:内容选择和内容描述
自然问答
COREQA

通用对话模型

基于模板的方法

早期使用关键词和模式匹配的方法,处理和生成的句式比较简单,能处理的领域有限,不能处理较复杂的对话,对话的自然度较差

端到端的方法

基于端到端的对话模型希望从原始历史对话数据中学习对话过程中所需的全部知识,自动生成流利、完整的对话内容

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值