facebook开源语音识别框架wav2letter++环境搭建

本文详细介绍了在Ubuntu系统上,特别是针对Nvidia GTX 1060显卡,如何从安装CUDA和CUDNN开始,逐步搭建wav2letter++语音识别框架。过程中涉及Ubuntu系统的安装、Nvidia驱动、CUDA和CUDNN的配置,以及wav2letter++依赖的arrayfire、flashlight、libsndfile、KenLM等组件的安装和配置。作者强调了安装过程中的注意事项,如CUDA版本对arrayfire的影响,并分享了遇到的问题及解决办法。
摘要由CSDN通过智能技术生成

首先说明,本人只擅长在windows下开发。这次是因为公司需要做语音识别,采用wav2letter开源框架,所以在linux下搞一搞,如果有不对的地方还请指正。

先说下电脑配置: OS: Ubuntu16.04  GPU:Nvidia GTX 1060 5GB  CPU : intel i7 

os:ubuntu18.04 GTX1080Ti 安装先看下一篇中的注意事项

     https://mp.csdn.net/postedit/89088082

facebook号称wav2letter是目前最快的语音识别系统,我没研究过别的语音识别,不知道它的快慢是什么程度,到后面我会把训练时间和识别速度贴出来。

我是运行的CUDA版本wav2letter,要运行CPU和opencv版本的同学请绕过。

按照作者介绍需要安装一下工具:

arrayfire,flashlight,libsndlife,MKL,KenLM,gflags,glog,CUDA,cudnn等

我这里把我的安装顺序说一下,因为我电脑里以前是做图像识别时配置的环境,在此基础上,安装作者的说明开始安装,结果在安装编译完wav2letter,准备训练的时候,总是提示,找不到或打不开flac文件(语音训练数据包)。安装了好几遍,还是这个问题,一怒之下,重装系统。所以我的环境是从干净的ubuntu系统开始安装。

一、安装ubuntu系统以及安装Nvidia驱动,CUDA,CUDNN参考我前面的那篇文章https://blog.csdn.net/tudou880306/article/details/81076000. 

需要注意的时,作者要求CUDA>=9.2,作者推荐在CUDA9.2上安装。这个会影响到arrayfire的安装.

二、其它软件包安装

我是倒着安装的,什么意思?就是先下载wav2letter源码下来,然后cmake.. 配置环境,看看缺什么装什么。当然刚开始缺的是cmak

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值