语音识别开源框架 openAI-whisper

默行客

已于 2023-07-14 22:29:32 修改

阅读量4.1k

点赞数 3

文章标签：语音识别人工智能

于 2023-07-14 16:59:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/okyanxingkui/article/details/131726943

版权

Whisper 是一种通用的语音识别模型。它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型，也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。

GitHub - yeyupiaoling/Whisper-Finetune: 微调Whisper语音识别模型和加速推理，支持Web部署和Android部署

Whisper Webui - a Hugging Face Space by aadnk

微调Whisper语音识别模型和加速推理_夜雨飘零1的博客-CSDN博客

Openai-Whisper识别生成语音/视频字幕文件（支持自动翻译） - 哔哩哔哩

Whisper OpenAI开源语音识别模型_开源语音识别算法_Sanfor的博客-CSDN博客

conda create -n whisper python=3.9

conda activate whisper

pip install git+https://github.com/openai/whisper.git

whisper audio.mp3 --model medium --language Chinese

解决输出繁体中文不输出简体中文问题：

whisper --language Chinese --model large audio.mp3 --initial_prompt "以下是普通话句子"

就中文而言，Whisper各模型：

tiny 是没有做断句的，或者说，直接根据停顿断句
base 已经开始根据逻辑断句，但会出语法错误
small 已经很少语法错误，但断句水平却直线下降，很奇怪
medium 不仅能够完美的断句，还能判断语气

可以看出，飞书妙记给用户开放的转写能力大约在 tiny 到 base 之间（转写速度也在 tiny 左右，已经很快了）

值得指出的是，这里的对比，目的并不是比较二者的技术，否则对于飞书妙计相当的不公平，作为一款消费级应用，它不可能给用户跑medium等级的模型来做转写

对比的意义是，Whisper，作为一个开源模型，和消费级产品比起来怎么样？

答案是，完全可以替代，用 small 模型足以实现当下的免费体验了。

甚至，用 medium 以上的模型，可以用「时间」换「好得多的使用体验」

Whisper—通用的语音识别模型 - 知乎

https://www.bilibili.com/read/cv19254244

openai开源的whisper在huggingface中使用例子（语音转文字中文）_语音识别_qq_37401291-开发者创业生态社区

OpenAI 开源音频转文字模型 Whisper 尝鲜 - 少数派

Whisper—通用的语音识别模型 - 知乎

https://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_web

OpenAI 开源语音识别模型 Whisper - OSCHINA - 中文开源技术交流社区

OpenAI Whisper中文语音识别效果尝试和应用（一）_迷途的小朋友的博客-CSDN博客

GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

OpenAI Whisper中文语音识别效果尝试和应用（一）_迷途的小朋友的博客-CSDN博客

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

默行客 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。