最近实验室服务器崩溃了,搞得我也很崩溃。对于SSD固态硬盘(几百G)与机械硬盘(2T)并存的双硬盘,两个K40 tesla系列的双显卡系统重装,确实不怎么好搞。基本上能遇到各种问题,踩了各种坑,都是血淋淋的实施。好记性不如烂笔头,就简单的记录一下,以避免下次踩同样的坑。一言不合我就拆开的服务器长这样:
1、系统重装时,注意设置U盘启动项及进入界面的各种优先启动顺序。
2、系统分区问题。一定要注意 / 的分区最好大一些,因为一般下载的软件等各种包都会默认安装在该路径中。这次重装就是因为之前系统没有合理的分区,导致这个路径下的空间满了。
3、系统引导盘问题。注意:对于双磁盘的情况,想清楚是把系统装在固态硬盘上还是装在机械硬盘上。这里一定要注意:如果装在固态硬盘上,则系统开机启动的快,但是在引导项中注意设置引导顺序;如果装在机械硬盘上,则系统开机启动的慢,甚至会启动不起来(如果本身显卡小的话,可能带不动这么大的机械硬盘)。后来,把固态硬盘直接拆掉,不用了,直接把系统装在机械硬盘上。
4、安装显卡驱动时,有一项就是要关闭当前界面。再重启时可能会启不动。
。。。。。。反正就是各种问题,拆了卸,卸了拆,拆中有卸,卸中有拆,真的太折磨人了。
各种环境的配置:
1、安装anaconda。
从官网下载anaconda,打开terminal,进入终端,打开下载的路径:
anaconda 安装目录:/home/用户名/anaconda
bash Anaconda.sh 文件
按照提示,安装成功。
然后还要环境配置一下:
如果是界面:sudo gedit ~/.bashrc
如果是命令行安装,则为 :vim ~/.bashrc (采用此方式)
然后进入vim环境中,在最后一行加入下面一句话:
export PATH="/home/用户名/anaconda3/bin:$PATH"
然后:source ~/.bashrc
2、建立环境与安装各种包。
新建环境 :conda create -n 环境名
激活环境:source activate 环境名
显示已有的环境:conda info -e
删除环境: conda remove -n 环境名 --all
在当前环境下安装各种包:conda install 包名
如果安装不成功,则可以用pip安装 :pip install 包名
一般深度学习安装的各种包包括:pillow、jupyter、matplotlib、lxml、opencv、keras,jupyter notebook,pytorch等
如果安装指定包的版本,以tensorflow为例,则为:conda install tensorflow-gpu=1.12
这里一定要注意:cuda和cudnn以及Keras和TensorFlow的匹配问题,一定要注意各版本的兼容与匹配,还要注意安装顺序,有教程总结了各包的兼容版本与安装顺序!!!
具体可参考: https://blog.csdn.net/MahoneSun/article/details/80809042
安装pytorch:
在pytorch官网(https://pytorch.org/)上下载机器所对应的pytorch版本。
然后终端进入下载的目录,使用conda 命令安装:conda install 下载的pytorch版本。
安装torchvision:conda install torchvision
验证pytorch是否安装成功:
import torch
import torchvision
验证GPU是否可用:
print(torch.cuda.is_available()
出Bug了!这就是因为我安装pytorch版本时没有注意cuda的版本。查了一下我们服务器的cuda版本是9.0。
So,pytorch卸载重装吧。
卸载包:conda uninstall pytorch
conda uninstall torchvision
去pytorch 官网找到cuda对应版本的pytorch:
重新安装:conda install pytorch torchvision cudatoolkit=9.0 -c pytorch
这句话安装很慢。。。。慢慢等。
如果期间报错,就按照报错给出的网址重新下载再安装。
如果要查看现有的可利用的包的版本,可用 conda search 包名。
可以用conda list 查看一下已经安装的各种包。
世上本没有坑,踩得多了,便成了坑。