Whisper-AT:一个统一语音识别和音频标签的模型

人工智能技术派

已于 2024-03-23 16:18:57 修改

阅读量1.7k

点赞数 23

分类专栏：人工智能文章标签： whisper 语音识别音视频人工智能

于 2024-03-21 14:42:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/MoreSpeech/article/details/136908356

版权

人工智能专栏收录该内容

4 篇文章

订阅专栏

公众号/视频号/小红书/微博：人工智能技术派
人工智能技术派(AITECH)成员：hws

⎣语音大模型⎤
Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

背景介绍

Whisper模型使用了从互联网收集的680,000小时的标注语音数据，这些数据来自多样化的环境和录音设置，进而使得Whispe比现有ASR模型具有更好的鲁棒性。通过下图可以看出whisper的编码大多数背景声音信息，也就是说whisper或许可以用作音频分类，基于这一发现，论文探索了“一个统一语音识别和音频标签的模型”的方案。

方案阐述

上图是作者提出的“统一语音识别和音频标记”的模型架构，冻结Whisper的主干网络，也就是原来的whisper模型可以直接使用，识别效果不受任何影响。变动的地方是引入一个轻量级的音频标签模型(at-model)，这里at-model架构的选择作者实验了4中方案，分别是：

Last-MLP：顾名思义只将whisper模型最后一层的输出作为特征输给at-model
WA-MLP：WA指weighted average，这个方案取whisper所有层的输出，将平均值发送给at-model
WA-Tr：这个方案将WA-MLP的线性层用一个单头的transformer代替
TL-Tr：全称“time and layer-wise Transformer ”，就是上图框架对应方案，每一层的输出单独进行temporal Transformer，各层的Transformer权重是共享的。

作者为什么将whisper每一层的输出作为特征输入给at-model喃？关于这一点论文有实验结论：不同类别的声音采用whisper不同层的输出作为特征可以取得更好的分类效果(如下图)。

因为额外增加了1个at-model，所以计算力相比whisper肯定是要增加的，为最小化这种影响，at-model做了如下优化设计：1）在时间维度引入池化层将序列长度从500降至25；2）增加一个线性变换层，将维度从1280降至512。

归纳总结

综合看论文给出的实验结论(参下表），效果还是不错的。在精度相当的情况下，at-model取tl-tr时，at-model速度是AST的42倍。注意这里特指at-model部分，也就是说这里的42倍指的是纯音频标签部分的算力对比。

如果你是“语音识别+音频标签”任务，在识别算力没有增加的情况下，音频标签算力大大减少
如果你是单纯的“音频标签”任务，使用Whisper-Large就不太合适了，算力应该会超过AST，这个时候可以采用Whisper-Small外加一个更大的at-model（如表的最后一行），这个时候收益没那么大了，只有2.5倍，效果也差一些

同时，论文中给出了实现代码，为方便调试可以先下个tiny模型，执行whisper_transcribe_test_simple.py可以快速看到结果。

参考文献

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。