文 / 软件工程师 Alejandro Luebs 和 Chrome 产品经理 Jamieson Brettle
通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分,这得益于 WebRTC 等实时通信框架,而后者依靠高效的压缩技术和编解码器,解码或编码传输和存储的信号。数十年来,编解码器一直是媒体应用的重要组成部分,可使需要占用大量带宽的应用高效传输数据,支持用户随时随地进行高质量通信。
因此,在开发视频和音频编解码器时,一项长期目标就是提高信号质量,减少数据使用,以及最大程度降低实时通信延迟。虽然与音频相比,视频貌似会占用更多带宽,但现代视频编解码器能够实现比较低的比特率,甚至可能低于目前某些高质量语音编解码器所能达到的值。将低比特率视频和语音编解码器相结合,即使在低带宽网络中也能实现高质量的视频通话体验。但是根据过往经验,音频编解码器的比特率越低,语音信号的清晰度就越差,声音也越像机器人。此外,尽管部分人可以访问稳定的高质量、高速网络,但这种网络连接水平并不普遍,即便在网络良好的地区,有时也会遇到质量差、带宽低和网络拥堵的情况。
为解决这一问题,我们构建了 Lyra。这是一款比特率极低的高质量语音编解码器,即使在最慢的网络上也可以实现语音通信。为此,我们采用传统编解码器技术,同时利用机器学习 (ML) 的优势,使用基于数千小时数据进行训练的模型,创造出一种全新的语音信号压缩与传输方法。
-
Lyra