Lyra：一种用于语音压缩的新型极低比特率编解码器

最新推荐文章于 2024-08-07 10:08:02 发布

雨夜的博客

最新推荐文章于 2024-08-07 10:08:02 发布

阅读量527

点赞数

分类专栏：人工智能文档翻译和文章翻译文章标签：语音识别人工智能

原文链接：https://zhuanlan.zhihu.com/p/408023062

版权

人工智能文档翻译和文章翻译专栏收录该内容

3 篇文章 0 订阅

订阅专栏

视频介绍：Lyra：一种用于语音压缩的新型极低比特率编解码器

通过语音和视频通话与其他人在线联系越来越成为日常生活的一部分。实时通信框架（如WebRTC）使这成为可能取决于有效的压缩技术、编解码器，以编码（或解码）信号以进行传输或存储。几十年来，编解码器是媒体应用程序的重要组成部分，它允许需要带宽的应用程序有效地传输数据，并导致人们对随时随地进行高质量通信的期望。

因此，开发视频和音频编解码器的持续挑战是提供更高的质量、使用更少的数据并最大限度地减少实时通信的延迟。尽管视频似乎比音频更需要带宽，但现代视频编解码器可以达到比当今使用的某些高质量语音编解码器更低的比特率。即使在低带宽网络中，结合低比特率视频和语音编解码器也可以提供高质量的视频通话体验。然而，从历史上看，音频编解码器的比特率越低，语音信号就越难以理解，越机器人化。此外，虽然有些人可以访问一致的高质量、高速网络，但这种连接水平并不普遍，即使是连接良好的地区的人有时也会遇到质量差、带宽低、

为了解决这个问题，我们创建了Lyra，这是一种高质量、极低比特率的语音编解码器，即使在最慢的网络上也可以进行语音通信。为此，我们应用了传统的编解码器技术，同时利用机器学习 (ML) 的进步和在数千小时数据上训练的模型来创建压缩和传输语音信号的新方法。

Lyra 概述
Lyra 编解码器的基本架构非常简单。每 40 毫秒从语音中提取一次特征或独特的语音属性，然后进行压缩以进行传输。特征本身是log mel 频谱图，这是一个数字列表，代表不同频段中的语音能量，传统上用于它们的感知相关性，因为它们是根据人类听觉响应建模的。另一方面，生成模型使用这些特征来重新创建语音信号。从这个意义上说，Lyra 与其他传统的参数编解码器非常相似，例如MELP。

然而，传统的参数编解码器只是从语音关键参数中提取，然后可用于在接收端重建信号，实现低比特率，但通常听起来很机械和不自然。这些缺点导致了新一代高质量音频生成模型的开发，这些模型不仅能够区分信号，还能够生成全新的信号，从而彻底改变了该领域。DeepMind 的WaveNet是这些生成模型中的第一个，为许多生成模型铺平了道路。此外，目前 Duo 中使用的基于生成模型的丢包隐藏系统WaveNetEQ展示了该技术如何用于现实场景。

使用 Lyra 进行压缩的新方法
使用这些模型作为基准，我们开发了一种能够使用最少数据重建语音的新模型。Lyra 利用这些听起来自然的新生成模型的强大功能，在保持参数编解码器的低比特率的同时实现高质量，与当今大多数流媒体和通信平台中使用的最先进波形编解码器相当。波形编解码器的缺点是它们通过逐个样本压缩和发送信号来实现这种高质量，这需要更高的比特率，并且在大多数情况下不需要实现自然的语音。

生成模型的一个问题是它们的计算复杂性。Lyra 通过使用更便宜的循环生成模型（WaveRNN变体）避免了这个问题，该模型以较低的速率工作，但会并行生成不同频率范围内的多个信号，然后以所需的采样率将这些信号组合成单个输出信号。这个技巧让 Lyra 不仅可以在云服务器上运行，还可以在中端手机的设备上实时运行（处理延迟为 90ms，与其他传统语音编解码器一致）。然后，该生成模型在数千小时的语音数据上进行训练并进行优化，类似于 WaveNet，以准确地重新创建输入音频。

与现有编解码器的比较
自 Lyra 成立以来，我们的使命一直是使用替代品比特率数据的一小部分来提供最佳质量的音频。目前，免版税的开源编解码器Opus是基于 WebRTC 的VOIP应用程序使用最广泛的编解码器，并且具有 32kbps 的音频，通常可以获得透明的语音质量，即与原始语音无法区分。然而，虽然 Opus 可以在低至 6kbps 的更多带宽受限环境中使用，但它开始表现出音频质量下降。其他编解码器能够以与 Lyra 相当的比特率运行（Speex、 MELP 、AMR），但每个编解码器都会增加伪影并导致机器人发声。

Lyra 目前设计为以 3kbps 运行，聆听测试表明，Lyra 在该比特率下的性能优于任何其他编解码器，并且在 8kbps 时与 Opus 相比具有优势，因此带宽减少了 60% 以上。Lyra 可用于带宽条件不足以满足较高比特率且现有低比特率编解码器无法提供足够质量的地方。

确保公平性
与任何基于机器学习的系统一样，模型必须经过训练以确保它适用于所有人。我们已经使用开源音频库对 Lyra 进行了数千小时的音频训练，并使用 70 多种语言的扬声器，然后与专家和众包听众一起验证音频质量。Lyra 的设计目标之一是确保普遍可访问的高质量音频体验。Lyra 在广泛的数据集上进行训练，包括使用多种语言的说话者，以确保编解码器对它可能遇到的任何情况都具有鲁棒性。

社会影响和我们的
未来像 Lyra 这样的技术的影响是深远的，无论是从短期还是长期来看。借助 Lyra，新兴市场的数十亿用户可以使用高效的低比特率编解码器，从而获得比以往更高质量的音频。此外，Lyra 可用于云环境，使具有各种网络和设备功能的用户能够相互无缝聊天。将 Lyra 与新的视频压缩技术（如AV1）配对，即使用户通过 56kbps 拨号调制解调器连接到互联网，也可以进行视频聊天。

Duo已经使用 ML 来减少音频中断，并且目前正在推出 Lyra 以提高极低带宽连接上的音频通话质量和可靠性。我们将继续优化 Lyra 的性能和质量，以确保该技术的最大可用性，并研究通过 GPU 和 TPU 实现的加速。我们也开始研究这些技术如何导致低比特率的通用音频编解码器（即音乐和其他非语音用例）。

更新说明：优先更新微信公众号“雨夜的博客”，后更新博客，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。

博客来源：雨夜的博客