近日,小米传来好消息!
小米自研声音识别算法在音频标记(Audio Tagging)任务中取得重要进展。以公开数据集 AudioSet-2M 的音频数据作为训练集的音频标记模型,在业界首次突破 50 mAP 的分数,是截至目前所有音频标记任务论文中的最好成绩。
推动数据集 AudioSet 音频标记 mAP 指标进入 50+ 时代,标志着小米声音识别算法已在国际上性能排名第一。
音频标记算法可以识别广泛的声音,有助于让环境中的声音也能用文字等其他模态同等地表达,让声音被“看”见。
小米此次自研声音识别算法的重要进展,能够在小米手机、小米音箱、小米手环/手表、CyberOne/CyberDog 等丰富的设备场景中,给用户带来更加高效和准确的声音识别体验。
01
登顶声音领域 ImageNet
刷新音频标记技术最高指标
音频标记任务的目标是对音频进行多标签分类,使计算机能够理解音频内容,从而可应用于音频搜索、危险事件识别、机器故障监测、辅助无障碍等广泛场景。例如,对于视觉障碍者来说,音频标记技术可以帮助他们识别和理解周围环境中的声音,弥补视觉上的能力缺失。
Audio Tagging 任务(图片来源:DCASE 挑战赛官网)
此外,近期大语言模型(Large Language Model, LLM)受到了广泛的关注,学界和产业界也在积极推进音频大模型(Large Audio Model, LAM)的研究。已知的研究成果几乎都用到了预训练的音频标记模型用作音频编码,为整个大模型提供关键的音频信息提取能力。这使得音频标记任务不仅具有广泛的应用价值,也为未来音频大模型的研发提供技术基础。
Google 发布的 AudioSet 是音频标记任务影响力最大的数据集,被认为是声音领域的 ImageNet (计算机视觉领域最著名的数据集,由著名学者李飞飞等主持发布)。AudioSet 由来自 YouTube 的 200 余万条 10 秒的音频构成,总时长约为 5800 小时。通过人工听辨,这些音频被层次化地用 527 类标签标注。
AudioSet 数据集被发布者 Google 划分为了 balanced train、unbalanced train 和 evaluation 三个子集,前两个子集用于训练,最后一个子集用于测试。其中 balanced train 通常也被称为 “A