编者按
端上智能音频能力包括语音识别和声音事件检测等技术,此技术对互联网社交、游戏直播等场景非常重要。但端上智能音频技术也存在效果、性能、数据等方面问题。LiveVideoStack2023深圳站邀请到趣丸科技的马金龙老师讲解智能音频能力移动端落地实践,对这几个问题一一进行回答。
文/马金龙
整理/LiveVideoStack
大家好,我是马金龙,在多媒体算法开发方面有10年的经验,涉及音视频图像文本,音频前后端处理,弱网优化,音视频质量提升以及内容审核等。今天,跟大家分享智能音频能力移动端落地实践。
接下来,从四个方面进行介绍。第一部分介绍端上智能音频能力,第二部分介绍应用背景及面临问题,第三部分介绍端上智能音频实践之路,第四部分进行总结和展望。
接下来介绍端上智能音频能力,本节包含两项音频核心能力。
第一项是语音识别,即语音转化为文本,语音是万物互联的入口之一,如上右图清晰地展示了语音的重要性,此图也是通过AIGC用“语音是万物互联入口”prompt生成。
第二项是声音事件检测。大家可能从事SED方面可能比较少,更多的是从事音频前后端处理或者RTC等音频质量提升工作,在音频事件检测方面接触较少。在语聊房中,音频事件检测是很重要的一环,识别音频信号中正在发生的事情以及发生时间。
第二部分介绍应用背景及面临的问题。
上图展示的是我们公司的一些核心业务,包括游戏组局,音乐弹唱以及扩列交友等。左边是我们在生态中所要解决的问题,包括语音审核,语音内容理解,字幕生成以及主播行为检测等。