在使用horovod autotune 功能 ,提示
horovodrun: error: unrecognized arguments: --autotune --autotune-log-file
horovod -h 查看 确实没有 autotune
horovod -v 查看 版本 0.16.1
于是 按照相关命令
HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL pip3 install horovod==0.19.0
安装顺利完成,但在运行脚本后
输入 horovod -h 可以看到该版本有 autotune了
运行代码后 报
ImportError: Extension horovod.tensorflow has not been built reinstall Horovod with
HOROVOD_WITH_TENSORFLOW=1 to debug the build error
最后解决 : 避免进入各种坑中坑 dockers pull 对应0.19 版本的 容器吧 ,再改改代码