又是被环境反复折磨的一天,真该死啊。没关系,还在呼吸,已经很厉害了。
报错是这样的
RuntimeError: Failed to import transformers.sagemaker because of the following error (look up to see its traceback):
module 'torch.distributed' has no attribute '_all_gather_base'
在网上搜索了很久还是没能解决,尝试问了GPT说可能是Apex和transformers产生了冲突。
已经试过将Apex卸载重装,但是还是没有解决。。。
今天继续试。
——————————————————
二编:解决了
在终端中输入python,然后输入import apex,报错,可以看出还是apex没装好的问题。
还是要重装apex。
使用下面的命令卸载apex。
pip uninstall apex
然后再重装。
git clone https://github.com/ptrblck/apex.git
cd apex
git checkout apex_no_distributed
pip install -v --no-cache-dir ./
难绷,这个东西可太难整了。
参考: