中国人工智能学会通讯——智能语音技术与产业应用展望 1.1 智能语音技术的发展现状和挑战...

image

摘要: 本文结合云知声过去5年在智能语音技术产业化的实践经验,对智能语音技术及其产业应用的现状、挑战和发展趋势作一个分析和展望。智能语音技术是人工智能技术的一个重要分支,研究如何利用机器实现人类自然语言的“听”和“说”能力。随着2006 年深度学习技术的兴起,以及移动互联网的大数据积累,语音在降噪、识别、理解、合成等技术方面都取得了突破性进展,进入了产业化阶段。与此同时,物联网智能终端的高速发展,也为智能语音技术提供了一个广阔的产业应用舞台。

1.1 智能语音技术的发展现状和挑战

智能语音技术经过几十年的发展和积累,经历了模板匹配、统计方法和深度学习方法阶段。在模板匹配和统计学习阶段,主要是根据发音机理和听感特性,设计语音特征提取和归一化方法,根据特征距离或分布概率计算语音的帧级匹配度,结合动态规划算法搜索最优序列。在深度学习阶段,特征提取和帧级匹配度计算统一用深度神经网路( DNN) 建模,极大地提高了建模精确度。目前,智能语音技术已经形成了相对完备的技术体系,如图1所示,主要包含5个方面。

image

(1)语音降噪与增强技术。解决复杂真实场景下的语音回声消除、语音测向、波束形成、去混响、分离、降噪和增强等,提升真实应用场景下的语音信噪比;同时与后端声学模型的适配,是实现高精度语音识别和唤醒的基础。

(2)高性能低功耗语音唤醒技术。语音唤醒技术对解放双手和双眼,实现自由语音交互具有关键性作用。其最大的挑战在于,在保证复杂真实场景噪声、复杂用户口音、较高语音唤醒率的情况下,要同时将系统的误唤醒率和资源、功耗降低到极低程度。

(3)高精度语音识别技术。主要解决复杂真实场景噪声、用户口音、垂直领域下的把语音转化成文字的问题,需要快速定制或自适应用户,以提升用户体验。

(4)高自然度和个性化情感语音合成技术。传统的以信息传达为目的的语音合成已经不成问题,最大的挑战在于适应用户对合成音质、音色、情感韵律,以及快速模拟特定说话人的需求,对交互系统的用户体验而言至关重要。

(5)口语理解、对话管理和生成技术。结合说话人现场、上下文、用户画像、领域知识库等语境信息,理解用户语言的会话含义,根据对话管理策略,获取外部内容或服务,生成自然语言应答,这属于认知计算的范畴。目前最大的挑战在于缺乏统一和有效的框架,需要针对特定垂直领域进行专门的定制优化。

智能语音技术是语音产业应用的基础,随着深度学习技术演进和大数据积累,性能指标会持续提升。目前端到端深度学习算法,在语音识别[1] 、语音合成[2]、机器翻译[3]和对话系统[4]方面都取得了突破性进展,未来需要突破的主要技术点包括如下4个方面。

(1)小数据机器学习或自适应方法。通过少量样本数据,实现既有模型对特定说话人、环境噪声、应用领域的快速自适应。

(2)轻监督和无监督机器学习方法。从少量数据的有监督学习转向利用海量数据的半监督学习和无监督学习,将模型训练的数据规模,从人工标注规模的有限数据,扩展到无需人工标注的超大规模数据;从简单分类任务判别模型转向生成模型,从而取得显著的模型覆盖度和性能指标提升。

(3)结合多种语境信息的语用计算。在人机对话过程中,要正确理解用户话语的含义,不仅要看字面含义,还要在语用的层次上理解,即要结合多种语境信息以理解其会话含义。这些语境信息包括一些说话现场的语境,如说话的时间、地点、场所、设备传感器获取到的信息;也包括我们常说的言语语境,也就是话语的上下文;还包括知识语境,如背景知识、领域知识、用户画像信息、设备角色设定信息等。

(4)知识图谱和深度学习的融合。即让深度学习模型有效利用大量存在的先验知识[5]。相较于一般分类器神经网络内部具有一定的记忆特性,深度神经网络隐藏层还具有一定的抽象能力,因而把神经网络引入自动问答及相关领域(如阅读理解)有利于问题的优化和简化,同时使得知识图谱和阅读理解系统具有一定的推理能力和泛化能力。此外,神经网络直接访问记忆库(内存)、知识结构等外部依据,大大拓展了神经网络的用途,从记忆网络(Memory Network) [6]到可微神经网络计算架构(DNC) [7]的技术变革,使得神经网络不在局限于基于最大似然概率的拟合和特征抽取,转而向全新的拟人计算机蜕变,驱动知识、数据、逻辑分析与计算能力的融合,甚至促进真正的通用智能发展。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值