对话交互是继传统PC、PC互联网及移动互联网之后,下一个时代非常有想象力的关键技术方向,无论是学术界还是工业界都有极高的关注度,同时作为OPPO万物互融战略的关键节点之一,承载着伟大而艰巨的使命。
算法是对话交互的核心能力之一,决定了语音助手能达到的智能化水平,具有极高的技术价值。本文将主要从对话交互的目标、算法要解决的关键问题,行业现状与趋势、OPPO小布助手主要实践与进展,以及挑战与未来几个方面做个介绍。
【OPPO小布助手技术实践】第一篇:对话系统简介与OPPO小布助手的工程实践
1. 对话交互的目标与关键问题
通俗来说,对话交互的目标就是通过语音或文字以自然对话的方式,完成任务执行、信息获取、情感交流等人机交互过程。比如像科幻电影里面的贾维斯、大白等智能助手,代表了人们关于对话交互能力理想状态的期待。
对话交互近年来受到越来越多的关注,其背后的原因究竟是什么呢?其实回顾下近40年来信息科技发展的历程,就不难理解。我们知道,信息科技先后经历了传统PC、PC互联网、移动互联网几个大时代,其中每一个时代都与设备密切相关,进而催生入口和交互方式的革命。
而今我们正迈向被寄予厚望的AIoT时代,对话交互因其在新一代搜索引擎、超级服务分发中心、新型交互方式等方面的巨大想象力,承载了这一新时代下一入口级交互变革的使命愿景。
然而,想要达到理想的对话交互效果是非常困难的,主要是因为它需要跨越目前成熟的感知智能技术,迈向认知智能,当下在认知智能领域还存在很多尚未根本解决甚至未能清晰定义的问题。典型的认知难题包括如何表示和理解常识,如何使机器具有推理和规划能力,如何使机器有像人一样的想象力和自主性等。
在某种程度上,可以说解决了认知智能的问题,基本上就等同于实现了强人工智能,足见对话交互的难度之高。
对话交互的主干流程如下图所示,从中不难发现几乎所有关键节点都与算法相关,算法是取得较好对话交互效果的核心能力。
语义理解和对话能力是本文的重点,主要任务是在拿到用户Query后,通过先理解用户要什么,再决定给用户什么,最终组装合适资源恰当满足用户。由语义理解和对话能力组成语义算法系统就是为了达成以上目标的,该系统的涉及主要会面临系统性问题和技术类问题两大类,如下图所示。
系统性问题包括面向需要支持全领域Query、数百项技能、多设备多渠道的复杂系统,如何解耦拆解;面向产品需求多、模块多流程长、算法不确定性大等问题,如何高效迭代;面向无法穷举的多样化口语Query,如何通过效果监控保障体验;如何规避低级缺陷、答非所问、过度兜底等“智障”体验。
技术类问题则包括算法的选型、关键问题的建模求解、多轮对话的控制、性能方面的保障等。