智能音频能力移动端落地实践

最新推荐文章于 2025-05-09 10:58:32 发布

LiveVideoStack_

最新推荐文章于 2025-05-09 10:58:32 发布

阅读量1.1k

点赞数 16

文章标签：音视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/135924192

版权

编者按

端上智能音频能力包括语音识别和声音事件检测等技术，此技术对互联网社交、游戏直播等场景非常重要。但端上智能音频技术也存在效果、性能、数据等方面问题。LiveVideoStack2023深圳站邀请到趣丸科技的马金龙老师讲解智能音频能力移动端落地实践，对这几个问题一一进行回答。

文/马金龙

整理/LiveVideoStack

大家好，我是马金龙，在多媒体算法开发方面有10年的经验，涉及音视频图像文本，音频前后端处理，弱网优化，音视频质量提升以及内容审核等。今天，跟大家分享智能音频能力移动端落地实践。

接下来，从四个方面进行介绍。第一部分介绍端上智能音频能力，第二部分介绍应用背景及面临问题，第三部分介绍端上智能音频实践之路，第四部分进行总结和展望。

接下来介绍端上智能音频能力，本节包含两项音频核心能力。

第一项是语音识别，即语音转化为文本，语音是万物互联的入口之一，如上右图清晰地展示了语音的重要性，此图也是通过AIGC用“语音是万物互联入口”prompt生成。

第二项是声音事件检测。大家可能从事SED方面可能比较少，更多的是从事音频前后端处理或者RTC等音频质量提升工作，在音频事件检测方面接触较少。在语聊房中，音频事件检测是很重要的一环，识别音频信号中正在发生的事情以及发生时间。

第二部分介绍应用背景及面临的问题。

上图展示的是我们公司的一些核心业务，包括游戏组局，音乐弹唱以及扩列交友等。左边是我们在生态中所要解决的问题，包括语音审核，语音内容理解，字幕生成以及主播行为检测等。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。