智能音频能力移动端落地实践

cbddedd7fdbccc57d7d13903fdc09bcb.jpeg

ec7b29c611308065b39f44b096ad162d.gif

编者按

端上智能音频能力包括语音识别和声音事件检测等技术,此技术对互联网社交、游戏直播等场景非常重要。但端上智能音频技术也存在效果、性能、数据等方面问题。LiveVideoStack2023深圳站邀请到趣丸科技的马金龙老师讲解智能音频能力移动端落地实践,对这几个问题一一进行回答。

文/马金龙

整理/LiveVideoStack

大家好,我是马金龙,在多媒体算法开发方面有10年的经验,涉及音视频图像文本,音频前后端处理,弱网优化,音视频质量提升以及内容审核等。今天,跟大家分享智能音频能力移动端落地实践。

dba087b252a0e90abaf7434d98abd440.png

接下来,从四个方面进行介绍。第一部分介绍端上智能音频能力,第二部分介绍应用背景及面临问题,第三部分介绍端上智能音频实践之路,第四部分进行总结和展望。

167b8a174a8e53f3270b9f76eaea77bb.png

接下来介绍端上智能音频能力,本节包含两项音频核心能力。

78bf39316ab971e04b65ddbb0296b725.png

第一项是语音识别,即语音转化为文本,语音是万物互联的入口之一,如上右图清晰地展示了语音的重要性,此图也是通过AIGC用“语音是万物互联入口”prompt生成。

72254cadabe258f6dd8c7e615510cd44.png

第二项是声音事件检测。大家可能从事SED方面可能比较少,更多的是从事音频前后端处理或者RTC等音频质量提升工作,在音频事件检测方面接触较少。在语聊房中,音频事件检测是很重要的一环,识别音频信号中正在发生的事情以及发生时间。

1e5a81c6a5bd1ce505baf9dc82968e25.png

第二部分介绍应用背景及面临的问题。

c26fc6de17255c143c19ef072311d1e5.png

上图展示的是我们公司的一些核心业务,包括游戏组局,音乐弹唱以及扩列交友等。左边是我们在生态中所要解决的问题,包括语音审核,语音内容理解,字幕生成以及主播行为检测等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值