大模型之二十七-语音识别Whisper实例浅析

shichaog

已于 2024-08-30 16:49:28 修改

阅读量9.6k

点赞数 22

分类专栏：神经网络&人工智能文章标签：语音识别 whisper 人工智能

于 2024-08-28 21:05:11 首次发布

本文链接：https://blog.csdn.net/shichaog/article/details/141648848

版权

神经网络&人工智能专栏收录该内容

31 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

Whisper简介

Whisper是OpenAI于2022年9月开源的一个多语种识别模型，目前支持99种语言，是目前性能最好的开源多语种识别ASR大模型，第一版版使用了68万小时标注好的语料预训练模型，而large-v3的标注数据超过了500万小时，其paper中并没透露使用语料的详细来源，估计是爬了一些版权数据，在Huggingface上提到模型有很强的泛化能力，能够在未经特定训练的情况下处理新的语言或任务，同时可以使用fine-tune的方式提高特定语言的识别性能。

开源的Whisper情况如下：