如何在树莓派5上离线部署Whisper(文本转语音模型)


前言

本文主要针对2023年发布的树莓派新产品树莓派5的开发使用,为了实现离线的语音识别转文本功能,本文使用了openai的whisper模型。

一、环境需要

树莓派5(最好8GB内存)

Rspberry PI系统

Conda环境(可自行搜索,也可以查看我专栏下的其他文章)

二、Whisper是什么

Whisper 是 OpenAI 开发的一个强大的开源语音识别模型。它可以将语音转换为文本,支持多种语言和方言,具有高准确率和鲁棒性。Whisper 经过大规模、多样化数据的训练,能够在各种噪音环境中保持良好的识别效果。此外,它提供了多种模型尺寸,适合不同硬件资源的需求,并且易于集成和使用。Whisper 适用于会议记录、视频字幕、语音助手等多种应用场景,并支持离线运行,确保数据隐私。

三、使用步骤

1) 创建并激活虚拟环境 whisper_env(这里使用单独的一个虚拟环境,防止与其他环境包冲突)

conda create -n whisper_env python=3.9

conda activate whisper_env

2)安装ffmpeg,pytorch以及一些依赖项

FFmpeg介绍

FFmpeg 是一个开源的多媒体框架,用于处理音频、视频以及其他多媒体文件。它包含了一系列强大的工具和库,可以用于录制、转换和流式传输多媒体内容。Whisper 和 FFmpeg 是互补的工具,FFmpeg 可以帮助用户准备和处理音频数据,以便 Whisper 更加高效地进行语音识别。通过结合这两者,用户可以实现从音频录制到文本转录的完整流程。

(1)ffmpeg安装

这里使用conda命令下载

conda install -c conda-forge ffmpeg

如果下载缓慢则可以尝试使用换源下载

conda install -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ ffmpeg

(2)必要依赖项安装

这里需要提前安装依赖项,本人测试中发现如果直接安装whisper,在检索中安装各依赖项容易卡死,多次实验后发现提前安装依赖项可以解决这个问题。

sudo apt update 
sudo apt install -y build-essential libopenblas-dev libblas-dev libatlas-base-dev \ 
libprotobuf-dev protobuf-compiler libhdf5-serial-dev hdf5-tools \ 
libjpeg-dev zlib1g-dev libpng-dev libtiff-dev libavcodec-dev libavformat-dev \ 
libswscale-dev libv4l-dev libxvidcore-dev libx264-dev libgtk-3-dev \ 
libcanberra-gtk* libcanberra-gtk3* ffmpeg

如果下载缓慢可以考虑换源,这一步请自行换源。

(3)pytorch安装

这里安装pytorch,pytorch较大,所以建议通过换源安装,以下给出清华源安装的命令:

pip install torch torchvision torchaudio -i https://pypi.tuna.tsinghua.edu.cn/simple

检查后测试是否安装成功

python -c "import torch; import torchvision; import torchaudio; 
print('PyTorch version:', torch.__version__); 
print('TorchVision version:', torchvision.__version__); 
print('Torchaudio version:', torchaudio.__version__); 
print('CUDA available:', torch.cuda.is_available())"
 

正常会显示版本
在这里插入图片描述

(4)安装whisper

这里使用换源下载。

pip install openai-whisper -i https://pypi.tuna.tsinghua.edu.cn/simple 

(5)检测whisper的功能

完成安装后,通过文件传输工具将任意录取的一段mp3录音文件传输到树莓派5中,放到某个文件夹中,并且进入该文件夹,如图:
在这里插入图片描述
如何使用whisper命令进行转录(其中,–model选项指定了模型的大小(这里使用tiny),–language选项指定了语言(这里使用中文))
运行结果如下:
在这里插入图片描述

(6)成功实现!

赞!到这儿说明你的whisper模型已经成功部署啦!接下来你可以使用其他代码去调用它,并且根据自己的需求使用不同大小的模型!(模型越大,性能要求越高,同样性能也会更好)

总结

本文介绍了如何在树莓派5上成功部署 OpenAI 的 Whisper 模型,以实现离线语音识别功能。希望本文能够帮助你顺利完成环境搭建和模型使用,如有任何问题,请随时联系我,也可在评论区评论。

Colab Whisper模型是一种先进的语音文字模型,它基于语音识别技术,利用深度学习算法将语音信号换为文本。 Colab Whisper模型的实现步骤如下: 1. 准备数据:首先,需要准备用于训练模型语音数据集。这些语音数据应该包含不同人的不同语音片段,涵盖不同的语言和口音。 2. 数据预处理:接下来,需要对语音数据进行预处理。这包括对语音信号进行采样和分割,去除噪音和不必要的部分,并将其换为模型可处理的格式,例如MFCC特征。 3. 构建模型:使用深度学习框架,如TensorFlow或PyTorch,构建Colab Whisper模型。该模型通常由多个卷积神经网络和循环神经网络层组成,用于提取语音信号的特征并进行序列建模。 4. 训练模型:使用准备好的语音数据集,通过反向传播算法和训练集的迭代,对模型进行训练。在每个迭代步骤中,模型会根据预测输出与实际标签之间的差异调整自身的权重和参数,以提高预测准确性。 5. 模型评估和优化:在每个训练周期结束后,使用验证集和测试集对模型进行评估。评估指标可以包括词错误率(WER)和字符错误率(CER)。通过这些指标,可以确定模型的性能,并对其进行改进。 6. 部署和应用:一旦模型训练完成并通过评估,就可以将其部署到实际应用中。通过输入语音信号,模型将对其进行换,并输出相应的文本结果。 总之,Colab Whisper模型通过深度学习算法实现了从语音文本换。通过准备数据、进行数据预处理、构建模型、训练模型、评估和优化以及部署应用等步骤,可以实现一个高效准确的语音文字系统。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值