请查收使用OpenAI的Whisper进行语音识别的攻略

u013250861

已于 2024-02-14 12:54:13 修改

阅读量1.4k

点赞数 23

分类专栏： Audio 文章标签： whisper 语音识别人工智能

于 2024-01-03 01:05:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/135353287

版权

Audio 专栏收录该内容

39 篇文章 33 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Whisper是一种令人激动的新型语言模型，采用了全新的语音识别方法，即使是低质量的音频，Whisper也能产生高质量的结果，并且对各种声音和语言的适应性极强，无需进行微调。

Whisper是开源的，有一系列可用的模型尺寸，可以作为众多语音转文字应用的有效解决方案，包括翻译、智能个人助理、车辆语音控制系统、客户服务运营等等。

在这篇文章中，我们将探讨Whisper与其他语音识别模型的不同之处，并将展示如何使用在Graphcore（拟未） IPU上运行的预构建的Paperspace Gradient Notebook，来起用Whisper Tiny的Hugging Face实现。

链接：https://ipu.dev/rDk9lk

Whisper有什么聪明之处？

OpenAI的Whisper创始人们开始着手解决自动语音识别（ASR）迄今面临的几个基本挑战：

语音模型训练花费不低

许多ASR模型依赖于超高质量的标记音频/文本数据来进行监督学习。遗憾的是，这种符合“黄金标准”的训练数据是很缺乏的。以这种方式训练的模型能够在理想的条件下产生良好的语音识别结果。然而，由于它们对不同训练示例的接触有限，往往不能很好地进行概括，在处理低质量的真实世界音频时可能会遇到困难，并且通常需要额外的语音微调来为特定的用例做好准备。

显然，改进这类模型的方法是在更多的数据上训练它们，但高质量数据集的

了解本专栏

超级会员免费看

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
1
评论
请查收使用OpenAI的Whisper进行语音识别的攻略

Whisper是一种令人激动的新型语言模型，采用了全新的语音识别方法，即使是低质量的音频，Whisper也能产生高质量的结果，并且对各种声音和语言的适应性极强，无需进行微调。Whisper是开源的，有一系列可用的模型尺寸，可以作为众多语音转文字应用的有效解决方案，包括翻译、智能个人助理、车辆语音控制系统、客户服务运营等等。
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。