slurm kaldi gpu相关问题上(环境安装)

目录

 

1、cpu版kaldi可以运行,但无法调用gpu进行训练。

2、编译kaldi需mkl(intel提供的数学库)

3、编译gpu版kaldi

4、openfst版本不对


1、cpu版kaldi可以运行,但无法调用gpu进行训练。

      此处笔者所用kaldi为cpu编译而来,如需调用gpu须在编译kaldi前准备好cuda环境。让kaldi compile for CUDA。笔者此文kaldi编译相关大部分依赖(python3、***等已准备好)

2、编译kaldi需mkl(intel提供的数学库)

mkl安装:官网下载(https://software.intel.com/content/www/us/en/develop/tools/oneapi/base-toolkit/download.html?operatingsystem=linux&distributions=webdownload&options=offline

笔者选择linux --> web&local --> local下载离线包后上传服务器安装。

安装方法:直接运行下载的sh文件。一路确认,耐心等待。此处网上安装方法详细不赘述。

3、编译gpu版kaldi

   1) 在kaldi src 目录下

./configure --mkl-libdir=安装的mkl路径(笔者为:/home/**/intel/oneapi/mkl/2021.1.1/lib/intel64)

  2)指定src/kaldi.mk文件中MKL_ROOT路径(/home/**/intel/oneapi/mkl/2021.1.1)。

  3) 编译

make -j 24 (根据机器cpu数自定义)

 4)

make -j clean depend

以上结束后gpu版kaldi已编译好,enjoy.................................

可..........................

笔者想要进行训练时,异常“如约而至”。

异常太长,且在离线服务上,此处不贴出。大概就是:

Error in `nneet-int` free():invalid pointer:XXXXXX

/usr/lib64/librt-2.17.so
/usr/lib64/librt-2.17.so
/usr/lib64/librt-2.17.so
......
/usr/lib64/libgcc_s-4.8.5-20150702.so.1
/usr/lib64/libgcc_s-4.8.5-20150702.so.1
/usr/lib64/libgcc_s-4.8.5-20150702.so.1
......
/*/*/kaldi-trunk/tools/openfst-1.6.7/lib/libfst.so.10.0.0
/*/*/kaldi-trunk/tools/openfst-1.6.7/lib/libfst.so.10.0.0
/*/*/kaldi-trunk/tools/openfst-1.6.7/lib/libfst.so.10.0.0
.....

4、openfst版本不对

       出现如上问题是因为openfst版本不对,需重新编译openfst。

以上为笔者在前人基础上操作,站在巨人的肩膀山。各中细节尚未阐述,仅提醒之用。slum 调用gpu配置问题见另一文章。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
slurm-gpu集群搭建是一种用于创建高性能计算环境的解决方案,它能够有效地利用多个GPU来加速任务执行。以下是关于如何搭建slurm-gpu集群的简要步骤: 1. 购买所需硬件:首先,您需要购买足够数量的GPU、服务器和交换机来组成集群。确保GPU和服务器的型号和配置都兼容并且能满足您的计算需求。 2. 安装并配置操作系统:在每个服务器上安装您选择的操作系统,并确保操作系统和组件的版本兼容。建议选择一个常用的Linux发行版,如Ubuntu或CentOS。 3. 安装Slurm:使用包管理器或从源代码编译安装Slurm调度系统。Slurm是一个开源的高性能计算和作业调度系统,为集群提供了任务分配和管理功能。 4. 配置Slurm集群:编辑Slurm配置文件以设置集群的参数,例如节点名称、队列配置、资源限制等。确保每个节点都被正确地添加到Slurm的集群配置中。 5. 安装GPU驱动程序:为每个服务器上的GPU安装正确的驱动程序,并确保它们在操作系统中正确识别和配置。 6. 测试和优化:在完成集群配置后,进行一些基准测试,以确保GPU可以被正确地调用和使用。优化SlurmGPU驱动程序的配置,以最大程度地提高集群的性能。 7. 添加用户和作业:为集群上的用户创建账户,并允许他们提交作业。根据需要,在Slurm中配置用户权限和资源限制。 总结:通过购买适当的硬件,安装并配置操作系统、SlurmGPU驱动程序,以及进行测试和优化,您可以成功地搭建一个slurm-gpu集群。此集群能够高效地利用多个GPU来加速计算任务的执行,为您提供一个强大的计算环境

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值