Whisper简介
Whisper是OpenAI于2022年9月开源的一个多语种识别模型,目前支持99种语言,是目前性能最好的开源多语种识别ASR大模型,第一版版使用了68万小时标注好的语料预训练模型,而large-v3的标注数据超过了500万小时,其paper中并没透露使用语料的详细来源,估计是爬了一些版权数据,在Huggingface上提到模型有很强的泛化能力,能够在未经特定训练的情况下处理新的语言或任务,同时可以使用fine-tune的方式提高特定语言的识别性能。
开源的Whisper情况如下:
Size | Parameters | English-only model | Multilingual model | Required VRAM | Relative speed | Layers | Width | Heads |
---|---|---|---|---|---|---|---|---|
tiny | 39 M | tiny.en |
tiny |
~1 GB | ~32x | 4 | 384 | 6 |
base | 74 M | base.en |