在嵌入式处理器Jetson Orin上使用Whisper做语音内容识别(1)

简介

在AI大语言模型逐渐兴起的时代,或许在特定的领域需要离线、免费、开源的语音处理应用方式。选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡的Demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式,文档太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。

由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用很少。没有找到什么案例,只能自己科普,然后照葫芦画瓢了。

科普

在此之前,我们一般会参考一下目前PC端的实现方式,以及可行性分析。先看看网上一些文章吧,比如:Linux 中的机器学习:Whisper——自动语音识别系统。看着也没问题,装个软件运行起来即可,其中包括python的虚拟环境、Whisper、CUDA硬件加速、做好这几个差不多了。但是要注意目前网上的demo基本都是X86-64+N卡的,需要把所有软件换成aarch64的。

关于whisper是什么这里就不多介绍了,OpenAI开放了whisper接口,也开放了whisper模型,用户可以直接下载到自己电脑上使用,无需联网,也不需要调API花钱,这里体验一下本地下载使用,感受一下开源语音转文字。毕竟openai的在线API也是一笔不小的开支,还有可能设备部署后不联网的问题。参考在这:开源whisper快速语音转文字和视频生成字幕使用体验。里面也说明了当前处理中文处在的一个水平。

至于为什么没有考虑国内的~~~一言难尽吧,一个是开源问题、一个是收费问题(毕竟打工人是真的qiong),这些是要面临,另一个是生态问题,没有相应的文档能不能用起来还是关键,硬件加速之类的,毕竟这个需要很大的计算量。所以综上所述还是先考虑Whisper试一下。Github地址:Whisper-openAI

那么Buzz、DeepSpeech是啥?具体咱没有认真研究,简单看了下,大概就是Whisper+上了GUI、实现了跨平台、让用户使用体验更加友好这么个意思吧,自己做开发调用终究还是不太合适。DeepSpeech是Mozilla一个项目。

那Faster-Whisper、whisper-jax、whisperCPP又是啥?咱也是简单看了看,目前还没用上,总的来说就是在whisper基础继续改进得来的,这个后期有机会再试试吧,看数据表现还是不错的,先使用原版的whisper+python体验一下。

硬件要求

Nvidia Jetson Orin NX 16G  ---  Ubuntu20.04.6 LTS ARM64位版本

由于jetson的系统内存和显存是共用的,建议显存要用16G及以上版本。因为小内存不能用大语言模型,转出来的内容差别太大。

GPU+CUDA这个看情况吧,核心数和计算速度也影响最终的转换生成时间。但是内存不够会直接退出或者报错。

其它AI、边沿计算的板子没试过,目前英伟达的N卡生态较好、相应的应该说针对嵌入式这边也好一些,遇到问题有更多的解决方案。

软件要求

注意python的版本、英伟达的jetpack包版本、还有py的虚拟环境。

#end

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值