AVS3实时语音标准制定取得重要进展

编者按:由腾讯提交的AI Codec为基础的技术顺利通过评审,被选为AVS3P10实时语音编码标准的RM0基线和WD过点成功。从交叉测试来看,真正实现了低码率下质量是对齐OPUS、EVS中高码率的,达到运营级质量。我们在相近码率下,MOS分差过Google和Meta方案在0.6MO-1.0MOS。

AVS对此高度评价,“AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。”。对此,团队表示,希望这个进展可以推动产业界在(音频)AI Codec的技术演进和推广。

详细内容见下文:来源「新一代人工智能联盟」,经允许转发。


近日,AVS3P10实时语音编码标准获得重要进展。

2023年12月14日,第 87 次 AVS 工作组会议于成都开幕。会上,《智能媒体编码 第 10 部分 实时语音》(以下简称AVS3P10) WD 1.0通过全体会议审议;腾讯提交的技术方案,被选择为AVS3P10实时语音编码的RM0基线。

ba2d5d0d58a6af4d52fc4e0c05cf719f.png

实时语音通信技术(RTC: Real-time Communication),已广泛应用于协同办公、互动娱乐、社交等领域。上述多样丰富的应用场景给实时语音通信技术提出了多种技术挑战,其中,高质量、低延时、低带宽、高抗性的语音编码是非常重要的一环。

传统的语音编码器,包括AVS、ITU-T等标准语音编码器,在16-20kbps左右码率时,能够恢复出高质量宽带语音;在30-35kbps,可以恢复出高质量超宽带甚至全带语音。然而,当码率进一步降低(如:降到10kbps以下时),传统语音编码器恢复的质量下降明显,影响用户体验。

基于上述应用诉求,在今年3月第84次AVS会议上,由腾讯提议在AVS音频组启动面向实时语音通信场景的低码率高质量语音统项目。经过需求分析,在第85次AVS会议上,AVS正式立项AV3P10实时语音编码项目,并通过AVS音频组发出技术征集书。AVS3P10实时语音编码项目将由来自腾讯会议天籁实验室的肖玮负责推进和维护。

在第 86 次 AVS 会议上,音频组审议了由腾讯会议天籁实验室提交的M7886《AVS3P10语音编码参考模型候选技术方案》提案。

审议指出该方案具有以下4点特征:深度融合了经典信号处理和深度神经网络技术等人工智能技术,属于AI Codec;支持低码率、高质量编码、实时编码和解码和多速率编码;基于子带编码和多模式编码架构,低频信号采用深度神经网络提取特征,高频信号采用频带扩展方案提取特征,结合标量量化和熵编码完成特征压缩;具有开放的编码神经网络架构技术特征,在保证码流前向兼容基础上,可以重新修改和优化编码神经网络。

760b14a61211c735cef68d96243243fe.png

682580752efb4fffb57bca6f5fc368f2.png

bf3429f2be67f9d66d4c2a56c00d0b45.png

*点击图片查看大图

今年11 月 1 日,腾讯会议天籁实验室提交AVS3P10 RM0候选方案的可执行文件,由中国电子技术标准化研究院和华为分别进行了主观测试和交叉验证。交叉验证力求全面,基于 ITU-T P.800 DCR主观质量评价体系,主观测试覆盖不同带宽下纯净语音、丢包语音、混合语音等多场景,并首次将3A处理后的测试场景引入信源编码器测试中,以检验新一代AI Codec技术在贴近真实场景的表现。

在上述测试场景下,AVS3P10 RM0质量优势明显。主观测试结果表明,AVS3P10 RM0在宽带和超宽带等多个主要测试场景均达到了4.0以上MOS分,体现出明显优势,最低码率可达5.9kbps。AVS3P10 RM0采纳了深度神经网络技术,自带的丢包损伤能力,有效提升了编码器在网络不佳时的质量。

dbab3a84bb797a3919db0616ede393c5.png

e0bf5b8122efccb1814dff58dd392107.png

*点击图片查看大图

此外,在ITU-T P.863客观质量评价实验中,AVS3P10 RM0也体现出了显著优势。第一,在所有8个测试码率中,AVS3P10 RM0均超过4.0MOS,最高在4.45MOS。AVS3P10 RM0的质量,可以对齐OPUS和EVS等传统信号处理编码器在中高码率的表现,达到运营级质量。在AI Codec领域,AVS3P10 RM0在相近码率下,质量优势在0.6MOS以上。上述测试结论均反映出,AVS3P10 RM0代表了目前AI Codec的最高水平。

AVS3P10 实时语音编码,作为新一代的语音编解码技术标准,是对AVS系列标准的重要补充。该标准代表了腾讯在语音处理和人工智能技术创新和用户体验方面的最高追求,体现了业界最高水平,将为用户带来前所未有的性能和体验,引领行业进入一个全新的时代。 

未来,AVS3P10实时语音编码项目,将按照既定计划推进。预计,在2024年年中,完成标准化工作。

989dfdcc0e38edd46ff3fbf43859d661.gif

AITISA联盟简介

新一代人工智能产业技术创新战略联盟(AITISA)由两百余家来自人工智能行业内的顶尖企业、高校和科研院所、资本机构、服务机构、创新创业企业组成。联盟立足于人工智能技术资源及产业环境,联合人工智能领域的产、学、研、用、资、服等单位,以建立人工智能技术创新生态体系为基本愿景。 联盟通过“一体两翼”的工作部署,聚集工业界、科研界的中坚力量及相关机构,利用产业基金的引导,服务企业与开发者,推进人工智能产业的发展。

“一体两翼”中的 “一体”是指新一代人工智能开源开放平台(OpenI启智社区),“两翼”的“左翼”是以技术专家为主体组成的多个工作组,包括标准工作组、知识产权工作组、投融资工作组等。“右翼”是为以企业为主体的应用推进组,目的是促进人工智能在各产业领域的应用,已经在智能物流、智能医疗、智能政务、智能教育等方向开展工作。

自成立以来,联盟主办了全球人工智能产品应用博览会(AIExpo)、系列AITech国际智能科技峰会、上交会人工智能展区、天津世界智能大会分论坛、启智开发者大会等有重大影响力的会展活动,承办全国人工智能大赛,发布并启动了新一代人工智能开源开放平台(OpenI启智社区)、“新一代人工智能燎原计划”等。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值