对视觉类论文详解(免费)感兴趣的同学,可以关注微信公众号 李卓璐随手记,将会不定期发布,注意查收哦~
1、Whisper内容简单介绍
OpenAI的语音识别模型Whisper,Whisper 是一个自动语音识别(ASR,Automatic Speech Recognition)系统,OpenAI 通过从网络上收集了 68 万小时的多语言(98 种语言)和多任务(multitask)监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集,可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别,Whisper 还能实现多种语言的转录,以及将这些语言翻译成英语。Open AI 强调 Whisper 的语音识别能力已达到人类水准。

左:输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图,然后传递到编码器。
右:解码器经过训练以预测相应的文字说明,并与特殊的标记进行混合,这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻
本文介绍了OpenAI的Whisper语音识别模型,该模型在大规模多语言数据集上训练,具备高识别准确性和多语言转译能力。通过Windows系统的部署实例展示了模型在识别效果上的优秀表现,但同时也指出在追求速度时可能出现类似音节的误识别问题。
订阅专栏 解锁全文
4307

被折叠的 条评论
为什么被折叠?



