如何将RTC中基于AI的音频算法有效的产品化

最新推荐文章于 2023-08-01 14:41:47 发布

LiveVideoStack_

最新推荐文章于 2023-08-01 14:41:47 发布

阅读量559

点赞数 3

文章标签：算法编程语言机器学习人工智能深度学习

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/109541447

版权

正文字数：4854 阅读时长：7分钟将AI算法任务模块化是一种解决AI音频处理算法应用效果不够好、通用/扩展性差、计算开销大等问题的有效方法。网易云信资深音频算法工程师郝一亚在Li...

摘要由CSDN通过智能技术生成

正文字数：4854 阅读时长：7分钟

将AI算法任务模块化是一种解决AI音频处理算法应用效果不够好、通用/扩展性差、计算开销大等问题的有效方法。网易云信资深音频算法工程师郝一亚在LiveVideoStackCon 2020北京站的演讲中就“模块化”是怎样解决上述问题的，“模块化”工程实现的可行性等问题进行详细解析，并举例介绍了目前市场中的几个“模块化”的成功案例。

文 / 郝一亚

整理 / LiveVideoStack

大家好，我是郝一亚，来自网易云信，目前主要负责网易云信在RTC领域的音频算法的研发。本次我想要分享的题目是如何将AI音频算法应用、结合到RTC中，我会结合自己在国外的一些研究和开发的经验，包括网易云信在AI音频算法应用实战当中的一些经验总结，和大家一起聊一聊如何将AI音频算法与RTC有机结合。

RTC中AI音频的现状

TITTLES

首先，第一个问题是RTC中AI音频到底是处于一个什么阶段？可能大家会接收到比较极端的两种不同信息：第一种就是目前AI算法如Deep Learning等在各行业都开始广泛应用，效果也比较好；另外一种就是大家在实际的工作当中，可能会感受到AI在某些情况下，比如说在训练集和一些特定Case下的感觉还不错，但很难落地、上线到实际的产品当中，存在着各种各样的问题和困难。那么首先我们来简单分析下目前AI音频到底是处于一个怎样的阶段。

1.1 音频处理中AI的力量

先来介绍一些好的方面，例如结合CNN的降噪，最早是因为AI在Computer vision领域成功的应用，我们就可以把这种语谱图（如图所示）作为一个图像的概念。这样的方式为CNN和降噪模块的有机结合提供了一个契机。

图中展示的就是一个CNN的降噪，我们可以看到，如左上角图所示，右边是传统的降噪方法，Noisy Speech相对于原始信号，它的信噪比已经很低了。而左边是一个MMSE的算法，相比于传统方法是有一定提升的，特别是非语音段。但我们可以从中看到特别是高频的部分，还是存在很多的残留。从横向对比来看，AI算法在基于传统的方法之上，可以让我们在非语音段有对噪声有一个非常好的抑制，其结果对比原始信号，可以看到其实相似度非常高，肉眼基本很难区别。

下面的例子是一个场景的分类，说到有关分类的问题，其实我个人觉得这是AI比较擅长的一个方向。我们可以看到Noise Suppression、Sound Classi

最低0.47元/天解锁文章

LiveVideoStack_

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
如何将RTC中基于AI的音频算法有效的产品化

正文字数：4854 阅读时长：7分钟将AI算法任务模块化是一种解决AI音频处理算法应用效果不够好、通用/扩展性差、计算开销大等问题的有效方法。网易云信资深音频算法工程师郝一亚在Li...
复制链接

扫一扫