问题背景:
Google最近开源了一种语音压缩的新型超低比特率编解码器,这种编码器的最大特点是基于机器学习原理,能够使用最少的数据来重建语音,这是和传统AAC和Opus编码原理的本质区别,这种基于机器学习的编码思想也逐渐应用的图像编码和视频编码上。
其次Lyra牛逼的地方在于不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天,还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。
随着谷歌的推广,估计WebRTC后续也有相关动作支持起来,特别在网络比较差带宽较低的场景下进行实时音视频互动有一定的优势。目前已经在Google Duo中进行了应用。
下面是收集的一些链接和资料,大家可以自行了解和学习。
开源git地址:
https://github.com/google/lyra
官网博客介绍:
https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html
https://opensource.googleblog.com/2021/04/lyra-enabling-voice-calls-for-next-billion-users.html?m=1
编码效果对比:
https://mp.weixin.qq.com/s/y0QQ5JvKya-rnET9wZnQ7Q
采访记录:
https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ
Papers
-
Kleijn, W. B., Lim, F. S., Luebs, A., Skoglund, J., Stimberg, F., Wang, Q., & Walters, T. C. (2018, April). Wavenet based low rate speech coding. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 676-680). IEEE.
下载链接:https://arxiv.org/pdf/1712.01120
-
Denton, T., Luebs, A., Lim, F. S., Storus, A., Yeh, H., Kleijn, W. B., & Skoglund, J. (2021). Handling Background Noise in Neural Speech Generation. arXiv preprint arXiv:2102.11906.
下载链接:https://arxiv.org/pdf/2102.11906
-
Kleijn, W. B., Storus, A., Chinen, M., Denton, T., Lim, F. S., Luebs, A., ... & Yeh, H. (2021). Generative Speech Coding with Predictive Variance Regularization. arXiv preprint arXiv:2102.09660.
下载链接:https://arxiv.org/pdf/2102.09660
往期文章回顾:
音视频常见问题分析和解决:HLS切片丢帧引起的视频卡顿问题排查
音视频解封装:MP4核心Box详解及H264&AAC打包方案
个人转载内容至朋友圈和群聊天,无需特别申请版权许可。
引用转载该订阅号文章,注明文章来源即可。
记得右下角点“在看”,还可以关注该订阅号,防止遗漏推送哦
今天就说这么多,祝您工作顺利!