kaldi训练的并行化需要配置cmd.sh
如果是local machine,只需要设置
export train_cmd=”utils/run.pl”
export decode_cmd=”utils/run.pl”
export mkgraph_cmd=”utils/run.pl”
export cuda_cmd=”utils/run.pl”
如果使用sge集群,则需要制定所使用的sge集群的queue。如:
export train_cmd=”queue.pl -q $queue”
使用qconf -sql 可以查看当前sge所包含的queue
qconf -sql:
all.q(一般all.q 会包含所有的主机)
c.q
gpu.q
若使用all.q,cmd 可设置为export train_cmd=”queue.pl -q all.q”.
如果想在当前的sge中再新建一个queue,包含若干主机。可使用以下的命令进行相关的操作:
qconf -aq [ 队列名]
添加队列, 此命令启动一个编辑器,其中显示队列配置模板。如果提供可选参数队列名,则此队列的配置将用作模板。可通过更改模板并将其保存至磁盘来配置队列。
qconf -Aq 文件名
添加队列,用文件文件名来定义一个队列。
qconf -cq 队列名[,…]
清除队列?? 清除指定队列的状态,使之闲置,停止运行作业。状态复位,且不考虑当前状态。该选项对于排除错误