实时语音场景下的智能对话

目录:

语音对话机器人: 热线小蜜
语音特色的文本驱动对话
语音语义驱动的双工对话

1.语音对话机器人: 热线小蜜

在这里插入图片描述

实时语音对话的挑战:

口语化:用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态:语音对话相比文本蕴含了更多的信息, 如语气、情绪、背景环境等。
双工化:不局限于一问一答的形式,会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时(人人对话rt < 400ms),强交互(turn- taking频繁)的特点。
在这里插入图片描述
在这里插入图片描述

实时语音对话的挑战:

在这里插入图片描述

对话:从文本驱动到语音语义驱动

缺少针对性的算法模型,基于在线QA构建的问答模型对口语化的语料适配性差,影响NLU准确性
语音和语义模块割裂,NLU/DM仅能基于ASR的结果进行处理,丢失语音模态信息,同时ASR带来误差传播
语音控制能力简单,基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应,造成“高延迟、弱交互”的用户体感,进一步会影响对话完成率
在这里插入图片描述

2.语音特色的文本驱动对话

面向ASR的SLU
场景:口语化订单匹配

热线采用基于自然语言描述的方式来进行订单的确认;
由于方言口音、噪声、和领域专有名词的影响,ASR结果包含一定比例的错误;
由于关键信息(品类、品牌、修饰词)的错误,导致无法匹配到正确的订单。
在这里插入图片描述
在这里插入图片描述
ASR-Robust SLU
在这里插入图片描述
ASR-Robust SLU:WCN
在这里插入图片描述
ASR-Robust SLU 结果:
在这里插入图片描述
语音情绪检测
背景:

热线呼入:用户一般不会对机器人进行辱骂,因此在文字上体现的负面情绪case不多(约10%),因而我们需要对用户在沟通中的语气语调中,呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检:热线质检一般是针对人工小二的服务红线,一般来讲人工小二直接辱骂客户的情况是很少的,我们同样需要对人工服务中的语气和异常情绪进行检测。

挑战:

数据质量差:学术界现有音频情绪数据集(IEMOCAP、RAVDESS、CASIA)基本采用表演方式收集,表演痕迹重,和真实讲话有很大差异。
标注和建模方式不合理:目前主流语音情绪标注采用分类打标(委屈、恐惧、着急、失望、愤怒、辱骂、感谢等),仅仅通过语音难以区分上述场景, 导致打标主观性极强,一致率低。

在这里插入图片描述
方案:

采用真实录音进行标注,通过上下文对话筛选出疑似含有情绪的候选,通过多位众包投票方式打标,根据标注方差过滤噪音样本。
结合业务场景,仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式,降低噪声影响。

在这里插入图片描述在这里插入图片描述
口语化表达
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
语音特色的文本驱动对话
在这里插入图片描述
语音语义驱动的双工对话
双工对话定义:

在这里插入图片描述
在这里插入图片描述
双工对话的特点:

语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈,通话双方并不准确的知道对方下一刻要做什么 -> 误判。

双工对话决策:

在这里插入图片描述
双工对话的表示:

在这里插入图片描述
在这里插入图片描述
双工:更短的响应时长
在这里插入图片描述
人际对话的特点:

边听边想:接受对方语音输入的同时进行理解和回答的构思。
边想边说:构思回答语言的同时,一边逐步的将回答讲出(有时还会加入一些承接语气)。

边听边想:

利用Micro-turn,基于当前接收到的用户表述, 提前理解并生成答案及TTS。
核心技术:提前理解播放策略、语义完整性模 型、语义差异性模型。

边想边说:

利用Micro-turn,在声音停止较短时间内直接判断当前是否句尾,并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术:多模态句尾检测模型、承接策略模型。

双工:语义化打断
在这里插入图片描述

语义化打断:

在重叠发声的情况下,判断用户是否有意的打 断当前对话,并且提前结束播音。
常见的打断场景:提前回答当前问题、补充前 一轮的回复、无意义的回答、
双工状态特征:当前TTS的已经播放的时长、 当前Query距离前一轮的时长等等。
核心技术:语义化打断模型,双工状态相关的打断策略。

双工:交互式数字收集
背景:

对于一些复杂信息且精度要求较高的槽位(例如长数字、复杂地址、精确时间等),通常难以通过单轮对话完成 (即使能完成,体验也很差)。
需要快速的多轮交互,turn-based无法满足。
以数字为例,会存在表述多样性(如“幺三个零”或 “一千”),修改澄清(“幺三五,哦不对幺三六”),表述含糊(“幺零零零零”)等难点。

技术方案:

基于单链路的Duplex DM,仅依赖micro-turn作为输入, 输出完整的对话策略。
针对长数字收集的优化:数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互,收集完成率提高20%以上。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述总结:
在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
智能语音处理 Python 包是一种用于处理语音数据的工具,它可以实现语音识别、语音合成、语音分析等功能。这种包通常使用深度学习技术,比如神经网络和机器学习算法,来识别和理解语音数据。 使用智能语音处理 Python 包,可以实现多种应用。首先,可以用于语音识别,将音频文件中的语音内容转换为文本,以便进行后续的文本分析和处理。其次,可以用于语音合成,将文本转换为自然流畅的语音,用于实现语音助手和智能对话系统。另外,还可以用于语音情感分析,识别语音中的情感信息,比如喜怒哀乐,以便进行情感识别和情感智能交互。 智能语音处理 Python 包通常包含丰富的工具和接口,可以方便地进行语音数据处理和分析。比如,可以使用预训练的模型和算法来实现语音识别和情感分析,也可以自定义模型和算法,以满足特定的需求和应用场景。此外,智能语音处理 Python 包还可以与其他 Python 包和工具进行集成,比如音频处理工具、文本处理工具等,以便实现更加复杂和全面的语音数据处理任务。 总的来说,智能语音处理 Python 包是一种强大的工具,可以帮助开发者和研究者实现各种语音相关的应用,包括语音识别、语音合成、语音情感分析等。它提供了丰富的功能和灵活的接口,可以满足不同需求和场景下的语音处理任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值