1.nvidia-smi查看显卡驱动
2.nvcc -V查看CUDA版本
3.查看cuda和torch适配版本
import torch
print(torch.__version__)查看torch和cuda版本
print(torch.cuda.is_available())查看是否可以,出现true就可以
print(torch.version.cuda)查看cuda适配版本
4.在执行print(torch.cuda.is_available())时报错的解决方法
报错:UserWarning: CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:112.)
return torch._C._cuda_getDeviceCount() > 0
False
解决链接https://blog.csdn.net/qq_40992227/article/details/123305773?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522E07EDF5C-F91A-4F3A-932B-0CCE7AA6C8F4%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=E07EDF5C-F91A-4F3A-932B-0CCE7AA6C8F4&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-5-123305773-null-null.142^v100^pc_search_result_base9&utm_term=__init__.py%3A80%3A%20UserWarning%3A%20CUDA%20initialization%3A%20CUDA%20unknown%20error%20-%20this%20may%20be%20due%20to%20an%20incorrectly%20set%20up%20environment%2C%20e.g.%20changing%20env%20variable%20CUDA_VISIBLE_DEVICES%20after%20program%20start.%20Settin&spm=1018.2226.3001.4187
如若连接失效:解决方法只需要在终端输入sudo apt-get install nvidia-modprobe
错误原因估计是:nvidia-modprobe 版本过低或未安裝,与显卡驱动的版本不匹配,将nvidia-modprobe更新至与显卡驱动的版本一致即可。
在解决改问题后运行issacgym例程不再报错。
5.修改cuda版本。由于各种仿真环境的限制,需要插入不同的cuda版本,切换cuda版本的方法如下:
1.sudo gedit ~/.bashrc 修改bashrc文件
export PATH=/usr/local/cuda-11.3/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
将其中的版本号改成自己的
保存退出后更新源文件source ~/.bashrc最后再nvcc -V检查是否更新成功
6. LooseVersion = distutils.version.LooseVersion
AttributeError: module 'distutils' has no attribute 'version'错误原因setuptools版本过高
解决链接:https://blog.csdn.net/qq_36944952/article/details/124683408?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522EAA85A36-59D1-49CE-B63B-CBE025984DD1%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=EAA85A36-59D1-49CE-B63B-CBE025984DD1&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-4-124683408-null-null.142^v100^pc_search_result_base9&utm_term=LooseVersion%20%3D%20distutils.version.LooseVersion%20AttributeError%3A%20module%20distutils%20has%20no%20attribute%20version&spm=1018.2226.3001.4187
pip show setuptools查看当前版本
pip install setuptools==59.5.0 //需要比你之前的低
解决
7.Traceback of TorchScript (most recent call last):
RuntimeError: nvrtc: error: invalid value for --gpu-architecture (-arch)
第一步:pip uninstall torch
第二步:pip uninstall torchaudio
8.查看当前numpy版本:python3 -c "import numpy; print(numpy.version.version)"
删除numpy: pip uninstall numpy
安装numpy:pip install numpy==1.23.5(改成自己需要的版本)
9.在pip install -e . 时报反对: DEPRECATION: Legacy editable install of rsl-rl==1.0.2 from file:///home/w/isaacgym/python/examples/rsl_rl (setup.py develop) is deprecated. pip 25.0 will enforce this behaviour change. A possible replacement is to add a pyproject.toml or enable --use-pep517, and use setuptools >= 64. If the resulting installation is not behaving as expected, try using --config-settings editable_mode=compat. Please consult the setuptools documentation for more information. Discussion can be found at Deprecate `pip install --editable` calling `setup.py develop` · Issue #11457 · pypa/pip · GitHub
解决办法:pip install -e . --use-pep517安装setup.py文件
个人理解setup文件就是用来配置路径
10. 在训练时报错:pos[:2] += torch_rand_float(-1., 1., (2,1), device=self.device).squeeze(1)
RuntimeError: The following operation failed in the TorchScript interpreter.
Traceback of TorchScript (most recent call last):
RuntimeError: nvrtc: error: invalid value for --gpu-architecture (-arch)
原文链接:https://blog.csdn.net/weixin_45315065/article/details/132902799
解决办法:pip install torch –upgrade
升级后查看新版pytorch版本
import torch
print(torch.__version__)查看torch和cuda版本
然后下载对应cuda安装并按照5改路径
11.创建一个虚拟环境例如
conda create -n rl-go2 python=3.8
conda activate rl-go2
12.在isaacgym训练时宇树测试Python代码的指令
python3 train.py –task=go2 –num_envs 10 这个10代表训练的狗数
python3 train.py –task=go2 –num_envs 10—headless 表示关闭可视化界面
12.vscode 搜索文件命令为ctrl+p 搜索函数或者变量ctrl+f
13,isaacgym可视化界面关闭方法,headless = true关闭,开启反之
14.
(1)
要创建一个anaconda环境去训练一个强化学习模型,首先要下载anaconda并且安装具体教程可以参考:
史上最全最详细的Anaconda安装教程-CSDN博客^v100^pc_search_result_base9&utm_term=anaconda&spm=1018.2226.3001.4187
(2)检查你是否有NVIDIA显卡驱动,具体方法:输入指令nvidia-smi正常显示:
若
不显示类似界面则不正常,需安装显卡驱动,网上教程很多,自行尝试直到出现该界面
(3)
安装显卡驱动完成后需要安装NVIDIA的cuda加速模型推理,安装cuda的教程很简单,推荐这篇博文
Ubuntu安装cuda-CSDN博客^v100^pc_search_result_base9&utm_term=cuda%20ubuntu&spm=1018.2226.3001.4187
选择你需要的cuda版本安装,注意在2中右上角有显示CUDA Version:12.2表示的是该显卡驱动能兼容的cuda版本的上限是12.2此时并没有安装cuda。在安装完cuda之后需要添加路径上述文章应该提到了。检查是否安装成功:nvcc -V出现下图就代表成功:
(4)
安装完成cuda后,需要创建一个虚拟环境参考11并且激活虚拟环境,然后安装你本次仿真需要的pytorch安装完成后参考3步骤,若所需的cuda不是你现在需要的cuda则需要安装多版本cuda并且在bashrc文件中换源然后更新源,参考步骤5.然后就可以跑仿真,具体需要结合你要的代码的github上的操作走,建议先尝试跑通宇树的RL例程:https://support.unitree.com/home/zh/developer/rl_example
我遇到比较难寻找的问题的答案都在上面了,希望有参考价值