新型开源语音编码器Lyra最新进展

​问题背景:

Google最近开源了一种语音压缩的新型超低比特率编解码器,这种编码器的最大特点是基于机器学习原理,能够使用最少的数据来重建语音,这是和传统AAC和Opus编码原理的本质区别,这种基于机器学习的编码思想也逐渐应用的图像编码和视频编码上。

 

其次Lyra牛逼的地方在于不仅实现了以每秒3kb网络宽带提供听起来自然清晰的语音聊天,还可以在仅90ms延迟的情况下在从高端云服务器到中端智能手机的任何设备上运行。

 

随着谷歌的推广,估计WebRTC后续也有相关动作支持起来,特别在网络比较差带宽较低的场景下进行实时音视频互动有一定的优势。目前已经在Google Duo中进行了应用。

 


下面是收集的一些链接和资料,大家可以自行了解和学习。

开源git地址:

https://github.com/google/lyra

官网博客介绍:

https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

https://opensource.googleblog.com/2021/04/lyra-enabling-voice-calls-for-next-billion-users.html?m=1

编码效果对比:

https://mp.weixin.qq.com/s/y0QQ5JvKya-rnET9wZnQ7Q

采访记录:

https://mp.weixin.qq.com/s/Y1wceNAuMO7X8Vq3NiJ_GQ

 

Papers

  1. Kleijn, W. B., Lim, F. S., Luebs, A., Skoglund, J., Stimberg, F., Wang, Q., & Walters, T. C. (2018, April). Wavenet based low rate speech coding. In 2018 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 676-680). IEEE.

    下载链接:https://arxiv.org/pdf/1712.01120

  2. Denton, T., Luebs, A., Lim, F. S., Storus, A., Yeh, H., Kleijn, W. B., & Skoglund, J. (2021). Handling Background Noise in Neural Speech Generation. arXiv preprint arXiv:2102.11906.

    下载链接:https://arxiv.org/pdf/2102.11906

  3. Kleijn, W. B., Storus, A., Chinen, M., Denton, T., Lim, F. S., Luebs, A., ... & Yeh, H. (2021). Generative Speech Coding with Predictive Variance Regularization. arXiv preprint arXiv:2102.09660.

    下载链接:https://arxiv.org/pdf/2102.09660

     


往期文章回顾:

借力SRS落地实际业务的几个关键事项

一些丢包场景

云网络丢包故障定位全景指南

视频码控:CBR、VBR和ABR

音视频常见问题分析和解决:HLS切片丢帧引起的视频卡顿问题排查

译:构建音视频直播应用需要考虑的12件事

HLS+FMP4方案对H.265+AAC支持要点

流媒体传输协议:RTMP、HLS和RTSP介绍

基于HLS-TS&RTMP-FLV的微信小程序点直播方案

一图看懂音视频核心技术栈(框架、工具和场景))

国产开源流媒体SRS4.0对视频监控GB28181的支持

从方块效应&呼吸效应看编码量化参数对流控的作用

家庭消费类摄像头选择攻略和隐私保护小建议

音视频封装小总结(PS TS 和FLV)

SDP在RTSP、国标GB28181、WebRTC中的实践

视频监控摄像头的互联网化实践思路

在HTML5上开发音视频应用的五种思路

周末活动回顾:视频质量主观评价、实时RTC和AV1

音视频封装:MP4结构概述和分析工具

音视频解封装:MP4核心Box详解及H264&AAC打包方案

音视频基础知识-时间戳的理解

音视频封装格式:AAC音频基础和ADTS打包方案详解

从人类的第一次直播聊聊视频监控行业

音视频压缩:H264码流层次结构和NALU详解

音视频传输:RTP协议详解和H.264打包方案

音视频常见问题分析和解决:延时和抖动

个人转载内容至朋友圈和群聊天,无需特别申请版权许可。

引用转载该订阅号文章,注明文章来源即可。

记得右下角点“在看”,还可以关注该订阅号,防止遗漏推送哦

 

 


今天就说这么多,祝您工作顺利!

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值