在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别（1）

8号线bug攻城狮

已于 2023-12-02 19:57:02 修改

阅读量1.4k

点赞数 1

分类专栏： AI 文章标签： whisper 语音识别人工智能

于 2023-11-16 16:58:59 首次发布

本文链接：https://blog.csdn.net/qq_21046713/article/details/134442614

版权

AI 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了在AI大语言模型流行背景下，如何在离线环境中部署和使用Whisper进行语音处理，特别关注嵌入式设备如JetsonOrinNX的部署过程，包括遇到的问题和注意事项，如硬件配置、软件兼容性等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

在AI大语言模型逐渐兴起的时代，或许在特定的领域需要离线、免费、开源的语音处理应用方式。选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡的Demo，就目前（20231116）而言还没有看到关于嵌入式上的应用方式，文档太少了。其中遇到的问题可谓千奇百怪，接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异，具体还是按实际情况解决实际问题。

由于jetson诞生到至今，应用领域都是视频识别之类的内容多一些，对于语音上的应用很少。没有找到什么案例，只能自己科普，然后照葫芦画瓢了。

科普

在此之前，我们一般会参考一下目前PC端的实现方式，以及可行性分析。先看看网上一些文章吧，比如：Linux 中的机器学习：Whisper——自动语音识别系统。看着也没问题，装个软件运行起来即可，其中包括python的虚拟环境、Whisper、CUDA硬件加速、做好这几个差不多了。但是要注意目前网上的demo基本都是X86-64+N卡的，需要把所有软件换成aarch64的。

关于whisper是什么这里就不多介绍了，OpenAI开放了whisper接口，也开放了whisper模型，用户可以直接下载到自己电脑上使用，无需联网，也不需要调API花钱，这里体验一下本地下载使用，感受一下开源语音转文字。毕竟openai的在线API也是一笔不小的开支，还有可能设备部署后不联网的问题。参考在这：开源whisper快速语音转文字和视频生成字幕使用体验。里面也说明了当前处理中文处在的一个水平。

至于为什么没有考虑国内的~~~一言难尽吧，一个是开源问题、一个是收费问题(毕竟打工人是真的qiong)，这些是要面临，另一个是生态问题，没有相应的文档能不能用起来还是关键，硬件加速之类的，毕竟这个需要很大的计算量。所以综上所述还是先考虑Whisper试一下。Github地址：Whisper-openAI。

那么Buzz、DeepSpeech是啥？具体咱没有认真研究，简单看了下，大概就是Whisper+上了GUI、实现了跨平台、让用户使用体验更加友好这么个意思吧，自己做开发调用终究还是不太合适。DeepSpeech是Mozilla一个项目。

那Faster-Whisper、whisper-jax、whisperCPP又是啥？咱也是简单看了看，目前还没用上，总的来说就是在whisper基础继续改进得来的，这个后期有机会再试试吧，看数据表现还是不错的，先使用原版的whisper+python体验一下。