简介
在AI大语言模型逐渐兴起的时代,或许在特定的领域需要离线、免费、开源的语音处理应用方式。选来选去也就只能用whisper了。鉴于网上其它参考方案都是基于PC端的N卡的Demo,就目前(20231116)而言还没有看到关于嵌入式上的应用方式,文档太少了。其中遇到的问题可谓千奇百怪,接下来几篇内容将大致列出部署过程及遇到的问题如何应对。因为各个环境存在一些差异,具体还是按实际情况解决实际问题。
由于jetson诞生到至今,应用领域都是视频识别之类的内容多一些,对于语音上的应用很少。没有找到什么案例,只能自己科普,然后照葫芦画瓢了。
科普
在此之前,我们一般会参考一下目前PC端的实现方式,以及可行性分析。先看看网上一些文章吧,比如:Linux 中的机器学习:Whisper——自动语音识别系统。看着也没问题,装个软件运行起来即可,其中包括python的