排名第一!小米自研音频算法喜获重要进展

小米在音频标记技术上取得重大进展,首次将AudioSet的mAP指标提升至50,刷新行业记录。通过知识蒸馏技术和大量数据扩增,小米实现了高效的声音识别算法,该技术已应用于小米手机、音箱等产品,提高用户声音识别体验,尤其在辅助无障碍场景中展现出巨大潜力。
摘要由CSDN通过智能技术生成

近日,小米传来好消息!

小米自研声音识别算法在音频标记(Audio Tagging)任务中取得重要进展。以公开数据集 AudioSet-2M 的音频数据作为训练集的音频标记模型,在业界首次突破 50 mAP 的分数,是截至目前所有音频标记任务论文中的最好成绩。

推动数据集 AudioSet 音频标记 mAP 指标进入 50+ 时代,标志着小米声音识别算法已在国际上性能排名第一。

b5fe3c3cb91bea694d7efcc5b00bf0d8.png

音频标记算法可以识别广泛的声音,有助于让环境中的声音也能用文字等其他模态同等地表达,让声音被“看”见。

小米此次自研声音识别算法的重要进展,能够在小米手机、小米音箱、小米手环/手表、CyberOne/CyberDog 等丰富的设备场景中,给用户带来更加高效和准确的声音识别体验。

01

登顶声音领域 ImageNet

刷新音频标记技术最高指标

音频标记任务的目标是对音频进行多标签分类,使计算机能够理解音频内容,从而可应用于音频搜索、危险事件识别、机器故障监测、辅助无障碍等广泛场景。例如,对于视觉障碍者来说,音频标记技术可以帮助他们识别和理解周围环境中的声音,弥补视觉上的能力缺失。

4fe0ec6fc3f949f3e85a1aeea8b64960.png

Audio Tagging 任务(图片来源:DCASE 挑战赛官网)

此外,近期大语言模型(Large Language Model, LLM)受到了广泛的关注,学界和产业界也在积极推进音频大模型(Large Audio Model, LAM)的研究。已知的研究成果几乎都用到了预训练的音频标记模型用作音频编码,为整个大模型提供关键的音频信息提取能力。这使得音频标记任务不仅具有广泛的应用价值,也为未来音频大模型的研发提供技术基础。

Google 发布的 AudioSet 是音频标记任务影响力最大的数据集,被认为是声音领域的 ImageNet (计算机视觉领域最著名的数据集,由著名学者李飞飞等主持发布)。AudioSet 由来自 YouTube 的 200 余万条 10 秒的音频构成,总时长约为 5800 小时。通过人工听辨,这些音频被层次化地用 527 类标签标注。

AudioSet 数据集被发布者 Google 划分为了 balanced train、unbalanced train 和 evaluation 三个子集,前两个子集用于训练,最后一个子集用于测试。其中 balanced train 通常也被称为 “A

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值