GPT-4o来了，超拟人语音合成系统的关键都在这里

最新推荐文章于 2024-11-09 12:00:13 发布

海天瑞声AI

最新推荐文章于 2024-11-09 12:00:13 发布

阅读量1.5k

点赞数 13

文章标签：人工智能语音识别

本文链接：https://blog.csdn.net/Speechocean/article/details/138918215

版权

在众多科技企业竞相提升大模型的多模态能力，致力于将文本总结、图像编辑等功能集成到移动设备中的时候，OpenAI 又双叒叕上新了！CEO奥特曼用了3个字母表达他的状态：her（就像电影《Her》一样）。

5月14日凌晨，OpenAI 首次“春季新品发布会”上，正式发布最新的 GPT-4o ，并展示了一系列新功能。不仅颠覆了产品的形态，更是又一次让全球科技界为之沸腾。GPT-4o 作为一款人机交互的先进大模型，融合了文本、语音和图像三种模态的理解能力，其响应速度之快、情感表达之丰富以及对人类行为的深刻理解，都标志着人机交互领域的又一次飞跃。

FounderPark

，赞6400

大家惊叹于Her时代来了，AI超拟人化也备受关注。拟人化TTS指的是系统能够模拟自然对话中的口语特征，如延长音、停顿、口语化词汇填充、重复、倒装和重读等。为了实现这一点，TTS模型在建模时必须复现这些口语化事件，并考虑到文本和声学的上下文。

此外，模型还需要关注更多的非语言信息，以增强语音的自然性和表达力。下面是Base TTS模型对于各项指标的评估，可以看副语言和情感评分最低，这表明情感和副语言的合成仍然是语音合成任务中最具挑战性的任务。

来自论文 BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

01 开发拟人化TTS系统的挑战

数据的获取和处理

开发拟人化的TTS系统面临的一个主要挑战是数据的获取和处理。

首先，为了训练一个能够精确处理非语言信息，如语调、强度和情感状态的TTS系统，需要依赖于大量的、高质量的、详细标注的语音数据。这些数据的标注不仅需包含文字信息，还应详细记录语音的多种声学特征，以便系统能够学习并复现自然语音中的复杂变化。

其次，语音数据的多样性也是一个关键因素。由于不同地区、不同性别、不同年龄群体的人们在说话时会展现出独特的语音特征和习惯，为了确保TTS系统在多种口音和语言风格中都能保持良好的表现，必须收集来自极其广泛背景的语音样本。这包括多种方言、口音以及从正式到非正式的各种语言风格，以确保系统的广泛适用性和自然性。因此，高质量和高多样性的数据收集及其处理，成为开发拟人化TTS系统的重大挑战之一。

模型的设计和训练

开发拟人化的TTS系统在模型的设计和训练方面面临重大挑战，主要集中在模型复杂性和声音的自然性与一致性两大领域。

1. 模型复杂性

为了精准捕捉和再现人类的副语言信息，如语调、停顿、强调和情感变化，TTS模型必须具备高度的复杂性和表现力。这要求模型不仅能理解文本的字面意义，还需深入解析文本中蕴含的情感和语境，进而在语音输出中体现这些细微差别。

情感的自动检测是通过NLP技术实现，如情感分析，但如何将这些情感映射到具体的声音表达上，如语调的高低、语速的快慢及音量的强弱，仍然是AI研究中的前沿问题。

此外，模型还需要能够处理各种复杂的语音模式和非标准语言表达，如方言、口音或特定群体的说话习惯。

2. 声音的自然性与一致性

在自然对话中，人们根据上下文和情感状态不断调整自己的语调和语速，这种动态的语音调整在TTS系统中实现极为困难。

尽管现代TTS系统通过采用先进的机器学习模型如深度神经网络已经能够提高语音合成的自然度，但在保持语音输出的一致性和真实感方面仍存在挑战。尤其是在处理长文本或复杂对话时，保持语音的流畅性和自然度，同时不失去情感的真实表达，是技术上的难点。

此外，为了提高自然性，TTS系统经常需要在运行时做出复杂的决策以适应文本内容的变化，这对实时语音生成的算法效率和响应速度提出了更高的要求。

针对这些挑战，研究人员正在探索包括但不限于以下方向：增强的情感建模技术、上下文感知的语音生成算法、以及利用大规模数据进行深度学习训练的方法。通过对大量的语音数据进行深入分析和学习，TTS系统能够更好地理解和模拟人类的语言多样性和复杂性，进而提升语音合成的自然度和应用广度。