新型开源语音编码器Lyra最新进展

最新推荐文章于 2022-11-13 11:17:02 发布

weixin_41422027

最新推荐文章于 2022-11-13 11:17:02 发布

阅读量624

点赞数 1

分类专栏：音视频开发

本文链接：https://blog.csdn.net/weixin_41422027/article/details/115546151

版权

音视频开发专栏收录该内容

27 篇文章 35 订阅

订阅专栏

问题背景：

Google最近开源了一种语音压缩的新型超低比特率编解码器，这种编码器的最大特点是基于机器学习原理，能够使用最少的数据来重建语音，这是和传统AAC和Opus编码原理的本质区别，这种基于机器学习的编码思想也逐渐应用的图像编码和视频编码上。

其次Lyra牛逼的地方在于不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天，还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。

随着谷歌的推广，估计WebRTC后续也有相关动作支持起来，特别在网络比较差带宽较低的场景下进行实时音视频互动有一定的优势。目前已经在Google Duo中进行了应用。

下面是收集的一些链接和资料，大家可以自行了解和学习。

开源git地址：

https://github.com/google/lyra

官网博客介绍：

https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

https://opensource.googleblog.com/2021/04/lyra-enabling-voice-calls-for-next-billion-users.html?m=1

编码效果对比：

https://mp.weixin.qq.com/s/y0QQ5JvKya-rnET9wZnQ7Q

采访记录：

https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ

Papers

Kleijn, W. B., Lim, F. S., Luebs, A., Skoglund, J., Stimberg, F., Wang, Q., & Walters, T. C. (2018, April). Wavenet based low rate speech coding. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 676-680). IEEE.

下载链接：https://arxiv.org/pdf/1712.01120
Denton, T., Luebs, A., Lim, F. S., Storus, A., Yeh, H., Kleijn, W. B., & Skoglund, J. (2021). Handling Background Noise in Neural Speech Generation. arXiv preprint arXiv:2102.11906.

下载链接：https://arxiv.org/pdf/2102.11906
Kleijn, W. B., Storus, A., Chinen, M., Denton, T., Lim, F. S., Luebs, A., ... & Yeh, H. (2021). Generative Speech Coding with Predictive Variance Regularization. arXiv preprint arXiv:2102.09660.

下载链接：https://arxiv.org/pdf/2102.09660

往期文章回顾:

音视频常见问题分析和解决：HLS切片丢帧引起的视频卡顿问题排查

译：构建音视频直播应用需要考虑的12件事

HLS+FMP4方案对H.265+AAC支持要点

流媒体传输协议：RTMP、HLS和RTSP介绍

基于HLS-TS&RTMP-FLV的微信小程序点直播方案

一图看懂音视频核心技术栈（框架、工具和场景））

国产开源流媒体SRS4.0对视频监控GB28181的支持

从方块效应&呼吸效应看编码量化参数对流控的作用

家庭消费类摄像头选择攻略和隐私保护小建议

音视频封装小总结（PS TS 和FLV）

SDP在RTSP、国标GB28181、WebRTC中的实践

视频监控摄像头的互联网化实践思路

在HTML5上开发音视频应用的五种思路

周末活动回顾：视频质量主观评价、实时RTC和AV1

音视频封装：MP4结构概述和分析工具

音视频解封装：MP4核心Box详解及H264&AAC打包方案

音视频基础知识-时间戳的理解

音视频封装格式：AAC音频基础和ADTS打包方案详解

从人类的第一次直播聊聊视频监控行业

音视频压缩：H264码流层次结构和NALU详解

音视频传输：RTP协议详解和H.264打包方案

音视频常见问题分析和解决：延时和抖动

个人转载内容至朋友圈和群聊天，无需特别申请版权许可。

引用转载该订阅号文章，注明文章来源即可。

记得右下角点“在看”，还可以关注该订阅号，防止遗漏推送哦

今天就说这么多，祝您工作顺利！

weixin_41422027

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
新型开源语音编码器Lyra最新进展

问题背景：Google最近开源了一种语音压缩的新型超低比特率编解码器，这种编码器的最大特点是基于机器学习原理，能够使用最少的数据来重建语音，这是和传统AAC和Opus编码原理的本质区别，这种基于机器学习的编码思想也逐渐应用的图像编码和视频编码上。其次Lyra牛逼的地方在于不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天，还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。随着谷歌的推广，估计WebRTC后续也有相关动作支持起来，特别在网络比较差带..
复制链接

扫一扫