whisper原理

andeyeluguo

已于 2023-07-02 14:58:45 修改

阅读量3.1k

点赞数

分类专栏： service99 文章标签： whisper

于 2023-07-02 14:56:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/andeyeluguo/article/details/131501032

版权

service99 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

Whisper是OpenAI公司开发的一种语音识别系统，其原理基于深度学习技术。下面是Whisper语音识别的基本原理：

1. 数据收集：Whisper使用大量的语音数据进行训练。这些数据包括各种语言、口音、说话速度和背景噪声等不同情况下的语音样本。

2. 特征提取：语音信号是通过麦克风采集的连续波形信号。Whisper首先将这些信号转换为频谱图，然后使用一种称为Mel频率倒谱系数（MFCC）的特征提取方法，将频谱图转换为一系列特征向量。

3. 模型训练：Whisper使用深度神经网络（DNN）进行语音识别。训练过程中，Whisper将特征向量作为输入，将其与对应的文本标签进行匹配。通过反向传播算法，不断调整神经网络的权重和偏置，使得模型能够更准确地预测语音对应的文本。

4. 解码和后处理：在识别阶段，Whisper使用一种称为CTC（Connectionist Temporal Classification）的解码算法，将神经网络输出的概率分布映射到最可能的文本序列。然后，通过一些后处理技术，如语言模型和拼写纠错，进一步提高识别准确率。

总的来说，Whisper的原理是通过深度学习技术，将语音信号转换为特征向量，并使用神经网络进行训练和预测，最终实现准确的语音识别。

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
whisper原理

4. 解码和后处理：在识别阶段，Whisper使用一种称为CTC（Connectionist Temporal Classification）的解码算法，将神经网络输出的概率分布映射到最可能的文本序列。Whisper首先将这些信号转换为频谱图，然后使用一种称为Mel频率倒谱系数（MFCC）的特征提取方法，将频谱图转换为一系列特征向量。总的来说，Whisper的原理是通过深度学习技术，将语音信号转换为特征向量，并使用神经网络进行训练和预测，最终实现准确的语音识别。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

andeyeluguo 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。