在人工智能(AI)和深度学习技术带来的众多酷炫可能性中,对现实世界各种事物的复制能力格外引人注目。无论是从零生成逼真的图像,还是对收到的聊天请求给出恰当回复,亦或是为特定主题创作合适的音乐,AI都能为我们提供出色的近似结果,而这些在以往往往需要人类亲力亲为。语音克隆就是这项新兴技术带来的有趣应用之一。它通过深度学习模型,模仿演员特定的语调、口音和音高,重现其独特的声音特质。当与生成式预训练变换器以及像SadTalker这样的静态图像操纵工具相结合时,我们就能在屏幕和扬声器背后,对现实生活中的人类行为进行有趣的模拟。
本文将详细介绍如何克隆自己的声音,并利用Tortoise TTS生成逼真的模仿音频。我们还能将这些音频片段与其他项目结合,借助AI创造出奇妙的成果。
Tortoise由独立作者James Betker发布,它无疑是目前在本地和云端设备上使用的最佳且最易用的语音克隆模型,无需任何API或付费服务即可使用。仅需3 - 5个10秒的语音片段,就能轻松克隆出声音。
从工作原理和灵感来源看,Tortoise借鉴了自回归变换器和去噪扩散概率模型在图像生成方面的方法。在这些模型中,通过逐步概率过程学习图像生成,经过大量数据和时间积累,掌握图像分布规律。而Tortoise专门针对语音数据的可视化表示——梅尔频谱图(MEL spectrograms)进行训练。利用与典型去噪扩散概率模型相似的过程,只需对语音数据