Photo by Lukas from Pexels
语音技术的进步,让机器合成的声音不再顿挫、冰冷,在自然度和可懂度等方面取得了不错的成绩,但当前合成效果在合成音的表现力上,特别是语气和情感方面,还存在不足。声音如果缺少情感,何谈表现力 ,又如何能提高用户交互的意愿?本文由标贝科技联合创始人兼CTO李秀林LiveVideoStack线上分享内容整理而成。
文 / 李秀林
整理 / LiveVideoStack
回放链接:https://www.livevideostack.cn/video/sillon/
大家好,我是标贝科技的李秀林,非常高兴能与大家分享情感语音合成的事情。
在语音交互中语音识别、语音合成、语音理解是必不可少的环节。语音识别,也就是识别用户说的话。识别完成后,系统需要理解用户语言背后的含义,我们称之为语义理解。理解到用户的诉求后,需要寻找答案并给出响应。通常情况下,我们会首先得到一份文本形式的答案,然后再将文本通过语音合成,模仿人说话的形式反馈给用户,这也就形成一轮完整的语音交互。
语音交互过程涉及语音合成,即把文字变成声音,声音是文字内容的一个信息载体。语音交互是日常生活中最常见、最被人熟悉并乐于接受的展现形式,例如:人与人说话、看电视、听收音机、与音响交互等等。体验效果的好坏,会对用户的感知造成很大影响。如果语音合成质量较好,说话效果更接近真人,且情感表达丰富,那么用户的交互意愿自然也会更强,用户会觉得这不是一个冷冰冰的机器,会有愿意与这类智能体进一步交互。
这段小视频是疫情初期我们的合作伙伴利用语音合成技术生成的。从视频中大家可以明显感受到:我们可以从声音当中获取充分的信息,也就是信息的传达作用是完全没有问题的。但也同样存在一个问题,即声音相对来说比较平淡,声音更多的是作为一个信息载体,而不是作为一个表达的载体。
接下来会和大家一同探讨语音合成和情感语音合成的技术难点与实现,以及将来语音合成的发展和应用场景。
01
语音合成的发展
语音合成的历史可以说是相当悠久。最初,实际上是通过类似于钢琴一样的设备来弹奏,能够发出几个声音,大家就已经觉得非常厉害。随着计算机技术的发展,从80年代到90年代再到现阶段,技术的迭代更新也越来越快。
90年代,计算机已经可以支持几百兆甚至上G的内存,硬盘也足以支持几十G的内存,能够实现存储大量的数据并进行较为复杂的处理。上图展示的系统框架就是在这一阶段产生的,并且直到前几年还有很多商务系统仍旧使用这套框架。
在框架中,训练阶段我们会针对音库的数据以及对应的标注文本进行建模(包括基频的提取、谱特征提取,以及时长提取等),训练成时长模型、基频模型、谱模型等。合成阶段则存在拼接合成、参数合成两种主流的方案。