环境搭建
1. 环境搭建
1.1 gpu驱动
- 查看安装信息:sudo dpkg --list | grep nvidia-*
搜索安装信息:apt search nvidia-*
查看GPU信息(型号,驱动,CUDA):nvidia-smi
查看CUDA信息: nvcc -V- 移除GPU驱动:sudo apt-get autoremove --purge nvidia-*
- 添加Graphic Drivers PPA: sudo add-apt-repository ppa:graphics-drivers/ppa
- 查看显卡硬件型号及推荐驱动版本: ubuntu-drivers devices
安装430驱动版本:sudo apt-get install nvidia-driver-430
- 修复依赖关系:sudo apt-get -f install
- 安装推荐版本(安装大量的包): sudo ubuntu-drivers autoinstall
1.2 cuda 和 cudnn
1.2.1 cuda
- sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libgl1-mesa-dev libglu1-mesa libglu1-mesa-dev libxi-dev
- chmod +x cuda_.xxxx_linux.run
- sudo ./cuda_9.xxxx_linux.run
(1) 询问是否装附带的驱动时,要选N! 附带的驱动是旧版本会有问题.
- 设置环境变量: sudo vim /etc/profile
(1) export PATH=/usr/local/cuda-9.0/bin:$PATH
(2) export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH
(3) 环境变量生效
[1] source ~/.bashrc
[2] sudo ldconfig- 检查cuda是否配置正确: nvcc --version
- 测试cuda的samples
(1) cd /home/NVIDIA_CUDA-9.0_Samples && make
(2) cd ./bin/x86_64/linux/release
(3) ./deviceQuery, Result = PASS就算成功- nvidia-smi 显示CUDA 版本与 nvcc不一致:
(1) 原因:CUDA 有两种API,Runtime API 与 Driver API
- nccl 下载
(1) import mxnet 时使用,多块GPU并行训练的工具
(2) 下载 tgz 包
(3) vim ~/.bashrc
(4) export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/alg_env_install/nccl_2.8.3-1+cuda10.1_x86_64/lib
(5) source ~/.bashrc
1.2.2 cudnn
- 官网cudnn版本
(1) cuDNN 是GPU加速计算深层神经网络的库
(2) developer library:包含了开发所需的cuDNN头文件
(3) cuDNN Library for Linux:相对简单,下载、解压、把相应的文件拷贝到指定目录、赋予权限就可以了。
(4) runtime library:不能开发编译,只是用于运行某些应用
- sudo dpkg -i libcudnn**_amd64.deb
- 验证
(1) cp -a /usr/src/cudnn_samples_v7 /home/
(2) cd mnistCUDNN && make
(3) ./mnistCUDNN, Test passed!说明cudnn安装成功
1.3 linux 的 TensorFlow Docker 映像
注:(1) 需在主机上安装 NVIDIA GPU 驱动程序
1.4 conda
- 分为anaconda和miniconda
(1) anaconda 包含一些常用包
(2) miniconda 是精简版,根据需要安装
1.4.1 使用方法
- 创建:conda create --name tf_gpu python=3.6
- 删除:conda remove -n tf_gpu --all
- 查看当前存在的环境: conda env list
- 打开/退出环境:conda activate tf_gpu / conda deactivate
- 搜索软件命令: conda search package
- 查看已安装软件: conda list
- 更新/卸载指定软件: conda update gatk / conda remove gatk
- 安装特定的版本: conda install 软件名==版本号
(1) pip install tensorflow-gpu==1.14.0
(2) pip install mxnet-cu101
[1] cuda版本是10.1
(3) pip install opencv-python
- 关闭bash自启动: conda config --set auto_activate_base false
- 显示安装频道: conda config --set show_channel_urls yes
- 添加安装频道
(1)官方:
conda config --add channels bioconda
conda config --add channels conda-forge
(2)清华:
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/- 查看添加channels: conda config --get channels
1.4.2 miniconda
- wget -c https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
- chmod 777 Miniconda3-latest-Linux-x86_64.sh
- bash Miniconda3-latest-Linux-x86_64.sh
- 在询问是否将conda加入环境变量的时候选择no
- 安装目录查找 miniconda3的 bin/activate
(1) chmod 777 activate
(2) . ./activate
1.4.3 Anaconda
- wget -c https://repo.continuum.io/archive/Anaconda3-2022.05-Linux-x86_64.sh
- chmod 777 Anaconda3-2022.05-Linux-x86_64.sh
- bash Anaconda3-2022.05-Linux-x86_64.sh
- sudo vim /etc/profile
(1) export PATH=/home/anaconda3/bin:$PATH
1.5 Caffe
- caffe 下载: git clone https://github.com/BVLC/caffe.git
- sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
- sudo apt-get install --no-install-recommends libboost-all-dev
- sudo apt-get install libatlas-base-dev
- sudo apt-get install libgoogle-glog-dev liblmdb-dev libgflags-dev
- 修改caffe工程Makefile、Makefile.config文件
cd caffe
cp Makefile.config.example Makefile.config
2. 常用命令
- 查看显卡信息: nvidia-smi
- 查看行数(比实际值多1): ls -l data/*.jpg | awk ‘{print $NF}’ #
- 查询目录个数:ls -l | grep “^d” | wc -l
- 查询文件个数:ls -lR | grep “^-” | wc -l
- 查看文件占用空间:du -sh data/