前言
做毕设的时候开始学习深度学习,发现身边的朋友和自己在配置环境的时候,多多少少都遇到了一些问题,做的小总结。
一、pytorch环境
1.pytorch安装
安装过程就不细说了,主要参考是
pytorch的安装教程
从显卡驱动,cuda到安装,环境配置都讲得很细,按顺序来就好。
pytorch安装的教学视频
这个是b站小土堆的深度学习教学视频,前三节视频的安装教程也很详细,安装跟着视频一步一步来也没问题。
在安装后,测试pytorch是否可用
import torch
print(torch.__version__)
print(torch.version.cuda)
print(torch.cuda.is_available()) #gpu测试,输出为True,则安装无误
2.报错和问题
pytorch配置好后,遇到的一些问题
1.解释器导入pycharm
这里出现的问题是,很多教程都是选择对应环境下的python文件,
但是在pycharm中点进对应的文件夹后却找不到能够加载的python文件。
这里的解决办法是找到anaconda\condabin\conda.bat文件后,选择使用现有环境进行导入。
选择对应的环境后,确定即可。
2.conda文件报错
CorruptedEnvironmentError: The target environment has been corrupted. Corrupted environments most commonly occur when the conda process is force-terminated while in an unlink-link transaction.
这个报错实在配好环境第二天跑开源之后出来的报错,出现原因暂时还不确定。
解决方法:
这里在经过排查后发现是环境中的conda文件报错,在社区查找后的解决方法是将报错的文件替换掉。
但是由于是多个文件报错并且一个一个查找替换太麻烦,直接将整个环境删除后重新配置效率更高一点。
二、tensorflow环境
1.tensorflow安装
同样不细说,这里主要参考的是两篇博客
tensorflow1.x的版本教程
tensorflow2.x gpu的版本教程
这是同一个作者的两篇教程,分别对应了tf的1.x和2.x的版本。
对我来说tensorflow和pytorch的环境配置过程体感差的太多了,报错也不是一点半点。可以说是我写这篇总结的初心了QWQ。
测试tensorflow是否可用
import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))
print(tf.test.is_gpu_available())
这里的tf.test.is_gpu_available()
如果返回的是false,可以看下面的报错和问题。
2.报错和问题
tensorflow遇到的一些问题。
1.tf.test.is_gpu_available()
返回false
经典的问题了,tensorflow环境配置里十个问题有八个卡在这里,找了一百种解法不知道问题出在哪里。
这里主要参考的两篇博客
Tensorflow-GPU不能用
返回false的一部分解决方法
1.老问题——cuda、cudnn、python、tensorflow版本不配。
在下载的时候就要对照好版本,各版本对应信息。
版本对照
如果是版本不对的话就只能重新装了。
2.设置nvidia控制面板
这是在查资料的过程中找到的另一位博主的解决办法。
通过nvidia控制面板将PhysX处理器选择为独立显卡。
改变PhysX
我并没有尝试所以不知道是否有效,放在这里当作解决方法之一做参考。
3.GPU与CPU版本
这一个是根据第二篇参考博客的查询cpu与gpu版本找到的问题。
虽然命令conda install tensorflow-gpu
但是查询后的返回结果是cpu,导致返回值为false。
解决方法是,将conda命令换为pip。然后问题就愉快的解决了。
2.anaconda安装后,conda下载失败
报错提示:An HTTP error occurred when trying to retrieve this URL.
这里是下载源的问题,参考更换下载源,进行更改。
3.activate后出现warning
warning信息为:
overwriting environment variables set in the machine
overwriting variable PATH LD_LIBRARY_PATH CUDA_HOME
查询:查看目录
conda env config vars list
这个问题是由于将path在当前环境和base中都进行了配置。
通过命令:
conda env config vars unset PATH=...
将配置取消,就不会再出现warning了。
4.import 库不存在,ModuleNotFoundError: No module named
这里主要是遇到的opencv和tensorflow.contrib.layers两个库
opencv是由于pycharm下载一直失败,通过pip下载
contrib库则改为tf_slim
pip install --upgrade tf-slim
import tf_slim.layers as layers
学习短结
python入门十小时,环境配置一整天。
希望大家顺利的import,完成Hello World新成就!