排名第一！小米自研音频算法喜获重要进展-CSDN博客

本文链接：https://blog.csdn.net/pengzhouzhou/article/details/132867433

小米在音频标记技术上取得重大进展，首次将AudioSet的mAP指标提升至50，刷新行业记录。通过知识蒸馏技术和大量数据扩增，小米实现了高效的声音识别算法，该技术已应用于小米手机、音箱等产品，提高用户声音识别体验，尤其在辅助无障碍场景中展现出巨大潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近日，小米传来好消息！

小米自研声音识别算法在音频标记（Audio Tagging）任务中取得重要进展。以公开数据集 AudioSet-2M 的音频数据作为训练集的音频标记模型，在业界首次突破 50 mAP 的分数，是截至目前所有音频标记任务论文中的最好成绩。

推动数据集 AudioSet 音频标记 mAP 指标进入 50+ 时代，标志着小米声音识别算法已在国际上性能排名第一。

音频标记算法可以识别广泛的声音，有助于让环境中的声音也能用文字等其他模态同等地表达，让声音被“看”见。

小米此次自研声音识别算法的重要进展，能够在小米手机、小米音箱、小米手环/手表、CyberOne/CyberDog 等丰富的设备场景中，给用户带来更加高效和准确的声音识别体验。

登顶声音领域 ImageNet

刷新音频标记技术最高指标

音频标记任务的目标是对音频进行多标签分类，使计算机能够理解音频内容，从而可应用于音频搜索、危险事件识别、机器故障监测、辅助无障碍等广泛场景。例如，对于视觉障碍者来说，音频标记技术可以帮助他们识别和理解周围环境中的声音，弥补视觉上的能力缺失。

Audio Tagging 任务（图片来源：DCASE 挑战赛官网）

此外，近期大语言模型（Large Language Model, LLM）受到了广泛的关注，学界和产业界也在积极推进音频大模型（Large Audio Model, LAM）的研究。已知的研究成果几乎都用到了预训练的音频标记模型用作音频编码，为整个大模型提供关键的音频信息提取能力。这使得音频标记任务不仅具有广泛的应用价值，也为未来音频大模型的研发提供技术基础。

Google 发布的 AudioSet 是音频标记任务影响力最大的数据集，被认为是声音领域的 ImageNet （计算机视觉领域最著名的数据集，由著名学者李飞飞等主持发布）。AudioSet 由来自 YouTube 的 200 余万条 10 秒的音频构成，总时长约为 5800 小时。通过人工听辨，这些音频被层次化地用 527 类标签标注。

AudioSet 数据集被发布者 Google 划分为了 balanced train、unbalanced train 和 evaluation 三个子集，前两个子集用于训练，最后一个子集用于测试。其中 balanced train 通常也被称为 “A