【人机对话】对话的囧境？

最新推荐文章于 2023-01-28 21:31:47 发布

zenRRan

最新推荐文章于 2023-01-28 21:31:47 发布

阅读量111

点赞数

文章标签：编程语言人工智能大数据机器学习知识图谱

点击上方，选择星标，每天给你送干货！

来自：李rumor

卷友们好，我是rumor。

人工智能对话系统一直是让我又爱又恨的存在，爱是因为一想到它的终极NB形态就令人兴奋，觉得自己在从事一门可以改变世界的技术，恨是因为现有的技术与期待相差太远，一旦框架搭起来了就陷入解case的死循环，让我怀疑我是谁我在干什么，我有生之年能看到强人工智能吗？？？

恰好最近看到Sebastian Ruder写了一篇QA的研究发展史，于是今天也来和大家唠唠QA研究以及国内的落地情况。

QA技术研究发展

如上图所示，Sebastian将QA的研究分为了5个阶段。

第一阶段是封闭域手工解析。这些系统的主要模块就是parser，和今天的semantic parsing任务很像，通过人工定义大量的规则，把句子解析成结构化的query后对数据库直接查询。1963年就有学者提出了Baseball系统来解答相关问题，之后是NASA在1972年提出的LUNAR，用于解答月球上岩石和土壤的问题。

第二阶段是开放域检索。这个框架也是当今大部分QA系统的解决方案，首先根据问题召回相关文档，再从文档中提取答案。不过考虑到速度与效果，现在的系统会提前把问题-答案对准备好，这就演变成了大部分智能客服使用的FAQ检索式问答。这种方法最早在1999年的TREC测评上被提出，2011年的IBM Watson也基于这个框架提出了更细致的pipeline。

第三阶段是阅读理解。研究者们开始把QA简化成阅读理解这样的监督学习问题，也就是给定一个文档和相关query，系统给出答案（也就是span抽取）。但这类数据集的构造基本都是看着答案写问题，直到最近（2019）才开始改成先写问题，再去找文档和答案，演变到了第四阶段的开放域检索+阅读理解。

第五阶段是多轮、多跳、多语言、生成、多模态。随着单轮问答的效果提升，简单query都解的很好了，但离人类还有很大差距。目前的学术界就在解答各个细分的复杂问题。

虽然学术界的进展已经很多了，但研究所用的数据集是没法覆盖现实的复杂情况的，同时深度学习模型的鲁棒性也一直是个大问题，因此目前工业界还在封闭域问答挣扎，即使是封闭域也要先对问题进行分类，应对各种长尾case。

对话能挣钱吗

对话的变现能力主要看能不能产品化。

产品化是指把能力打包成解决方案，首先要有需求，其次要有量，把一份东西卖给多个人，边际成本递减。

这个问题想清楚，就知道为什么ToB不好做了。国内16年开始涌现大批做NLP智能客服的公司，但到现在没有几个能出头的，我认为主要原因就是因为技术发展的限制，无法把FAQ技术产品化，导致换一个客户（换一个封闭域）之后都要从新训模型适配，而模型肯定是不够的，还要针对性的解各种case，这样人力成本就上去了，报价高的话只有大企业买得起，而CEO不一定有大企业的人脉，报价低只能自己倒贴钱吃融资，陷入负循环。

从这个思路来看，ToC似乎是更好的选择，现在看来的确也是。

ToC起码可以做到一份东西卖多份，但切对需求这个点同样重要。

国内最早最有名的莫过于小冰，但我个人感觉纯闲聊还是个伪需求，闲聊主要是情感上的交互，除了生理需要外，情感表达是需要信任和反馈的，如果明知道对方是机器，大部分成年人都不会进行深层交流，同时技术也不允许。

另一个需求就是目前比较成功的语音助理，一方面可以给用户提供信息，比如天气预报、时间，另一方面替用户完成任务，比如打电话、定闹钟、开关灯。国外做得好的有手机助手Google Assitant、Siri，以及亚马逊的智能音箱Echo。国内则有手机微软小娜、小米小爱、百度小度、天猫精灵。手机上的智能助理我有些存疑，但智能音箱我已经把自己说服了。

首先由于巨头前两年的补贴大战，音箱的普及一直在增长，而从使用感受来看，一旦习惯了“命令别人”，就真的很难改掉。比如我现在每天都需要某精灵给我放歌、定闹钟、预报天气，甚至还买了智能插座懒得自己关灯。另外随着国家政策支持（重点发展智慧家庭产品），一些新楼盘的精装交付都会带有智能家居，再加上自动驾驶的发展，大家会越来越习惯AI助理的存在。

从大趋势来看，我们已经走过了PC时代、互联网时代、移动互联网时代，接下来自然而然地便是IoT，基础设施的发展会产生更多的软件应用，对话作为人机交互的接口也会有用武之地。