本文转载自公众号知识工场。
本文整理自复旦大学知识工场肖仰华教授在VLDB 2017 会议上的论文报告,题目为《KBQA: Learning Question Answering over QA Corpora and Knowledge Bases》,作者包括:崔万云博士(现上海财经大学讲师),肖仰华教授(复旦大学)等等。
VLDB (Very Large Data Base) 是数据库领域最顶尖的国际会议之一,被中国计算机学会推荐国际学术会议列表认定为 A 类会议。涵盖数据库系统、数据管理、大数据处理、数据挖掘等各个研究领域,是展现数据库前沿科研成果以及探讨数据库未来发展方向的盛会。
肖仰华:大家好,非常高兴能在这里与大家分享我们的论文。
问答系统(QA)已经成为人类访问十亿级知识图谱的流行方式,它回答的是自然语言问题。 QA系统最有名的故事之一就是IBM WATSON在2011年参加了Jeopardy竞赛,打败了所有人类竞争对手,获得了100万美元的奖励。
QA的研究非常重要。首先,从应用角度来看,QA系统降低了人机交互的门槛, 非常适合成为互联网的新入口。作为聊天机器人的重要组件,吸引了来自工业界的大量关注。
从人工智能角度来看,QA是评估机器智能的一个重要任务,也就是图灵测试。同时,QA还是许多AI技术的重要测试平台,比如机器学习,自然语言处理,机器认知等等
现在我们来谈谈知识库。近年来,我们目睹了知识库的发展,越来越多的大规模知识库涌现出来,如Google Knowledge graph,Yago和Freebase等。这些知识库具有体量大,质量高的特点。
一个知识库包含了大量的结构化数据。右图给出了一个关于Obama的知识图谱示例。知识库中的每一个三元组代表一个知识或某个事实。 例如,一个三元组(d,人口,390k)表示檀香山的人口为390k。