背景
智能语音机器人是58集团TEG架构平台线AI Lab自主研发的具有自动电话拨打、多轮语音交互、智能意向判断等多种功能的通用对话机器人。在电话拨打场景下,多轮语音交互要求具备内容的专业性和极高的流畅性,目前多轮语音交互主要由话术驱动。当前智能语音机器人已经接入多个不同的业务场景,不同的业务场景定制了多套不同的话术。让智能语音机器人在复杂且多样的话术上与用户流畅的交流,是智能语音机器人所面临的困难与挑战。
智能语音机器人总体架构(参考 智能语音机器人架构实践),核心模块主要包括语音通话模块(参考 智能语音机器人中的语音通话实践)、意图识别模块、对话管理系统等,本文主要介绍对话管理系统的实现。
简介
在业界,对话管理系统经常出现在任务型对话中,指的是结合意图、槽位识别结果和系统配置生成系统回复,系统配置的实现形式通常是有限状态机或特殊的语境机制,用于实现多轮对话功能。一般任务型对话在客服场景中出现的比较多,如:订机票、天气查询等,旨在解决用户的需求。
电话拨打场景下的智能语音机器人与智能客服的最大区别在于主动性和流畅性。智能语音机器人是主动向用户发起对话,而不是等待用户提出需求,对话通常有明确的目的性,如:销售、通知、回访等,需要根据固定话术发起通话。另外,电话拨打场景对通话流畅性的要求很高,需要有效处理用户的口头语和临时提出的一些问题,并引导用户完成话术中的内容。因此,智能语音机器人的多轮交互是话术驱动的,且需要有效的支持电话场景下的特殊行为。
话术是业务方创建的对话流程图,其结构可以简单的概括为主线话术、支线话术、通用话术和标准问题话术。主线为话术主要目的,由开场白开始发起通话,其他话术是为了应对通话过程中其他行为(参考 智能语音机器人架构实践)。下图为招聘场景下的话术示例。
对话管理系统根据用户意图、槽位等信息决定话术的下一个节点,给出回复,并结合通用意图、标准问题以及拉回策略等,提高对话流畅度。下图为招聘和黄页两个场景下的对话过程。