开篇
下面的主要内容摘自腾讯知文的算法负责人的演讲,主要描述了腾讯知文问答系统的主要框架。
问答类型
第一种类型,任务驱动型。这种类型通常是用户希望去完成一些任务,比如查天气、查汇率等。
第二种类型,解决用户信息获取类的问题。这种类型也是我们这次分享的重点,我们将主要在这点展开。这也是目前业界落地最多的一种问答系统类型。
第三种类型,通用闲聊型。比如微软的小冰、苹果的 Siri 都支持通用闲聊,通用闲聊的加入会使对话系统更富于人性化,也可以加入个性化信息、用户画像信息,包括前面教授们提到的情感信息。
问答领域的数据
第一种,基于标准的、结构化的知识,比如说 FAQ 和 KG。FAQ 是常见问题解答,KG 是组织好的知识图谱,这两种都是比较结构化的数据类型。
第二种,数据以非结构化的形式存在,比如说表格、文档。
第三种,多模态、跨媒体问答,比如说 VQA,或可能存在视频、音频问答的语料库。
ps:就我的实习经验来说,在企业里往往是使用第一种数据去构建问答机器人的,同时,由于绝大多数的企业是没有能力构建KG的,所以大部分就FAQ的机器人。
通用的FAQ框架
由于图片比较模糊,所以就不放图了。
首先是问题处理模块,这一模块的工作包括查询、问询改写,错词纠正,同义词替换。第二步是