最近在服务器上用torchpack时遇到Could not resolve hostname XXXXX: Name or service not known问题。网上大部分解决方法是将XXXXX添加到/etc/hosts里,但是我没有ROOT权限改不了。通过查阅资料,我发现这个问题大部分是由于使用了系统内有多个版本的openmpi,然后使用了旧版的openmpi。
通过使用mpirun --version我发现系统默认使用的openmpi的版本是1.10.2,这个openmpi在/usr/local/bin。
然后我自行安装编译了新版openmpi放在~/work/third-party/openmpi-4.0.5
wget https://download.open-mpi.org/release/open-mpi/v4.0/openmpi-4.0.5.tar.gz
gunzip -c openmpi-4.0.5.tar.gz | tar xf -
cd openmpi-4.0.5
./configure --prefix=~/work/third-party/openmpi-4.0.5 --with-orte
make all -j8 install
然后用vim编辑.profile修改系统路径
export PATH="~/work/third-party/openmpi-4.0.5/bin:$PATH"
source .profile,再重新编译mpi4py和torchpack
rm -rf ./.cache/pip # 防止pip使用cache的package
pip install mpi4py
pip install --upgrade git+https://github.com/zhijian-liu/torchpack.git
问题解决!
2022年3月23日更新
使用这个方法
conda install -c conda-forge mpi4py openmpi
2255

被折叠的 条评论
为什么被折叠?



