问题描述
最近在使用AIMAX的集群资源部署大语言模型,AIMAX是通过加载镜像进入操作系统的,在使用docker镜像运行程序时报了如下错误:
/opt/hpcx/ompi/lib/libmpi.so.40: undefined symbol: opal_hwloc201_hwloc_get_type_depth
个人推测是c++的什么库缺少,导致有未定义的符号出现
解决方法
搜索百度以及Issue,个人解决这个报错的方法如下:
1.docker迁移遇到torch不能使用, 尝试但无果
2.OSError: /usr/local/mpi/lib/libmpi.so.40: undefined symbol: opal_hwloc201_hwloc_get_type_depth
有一个回答
apt purge hwloc-nox libhwloc-dev libhwloc-plugins libhwloc5
但是运行没办法安装最后一个libhwloc5
删掉最后一个库
apt purge hwloc-nox libhwloc-dev libhwloc-plugins
成功运行并解决问题!