AI - GPU环境搭建

1. 环境搭建

1.1 gpu驱动

  1. 查看安装信息:sudo dpkg --list | grep nvidia-*
    搜索安装信息:apt search nvidia-*
    查看GPU信息(型号,驱动,CUDA):nvidia-smi
    查看CUDA信息: nvcc -V
  2. 移除GPU驱动:sudo apt-get autoremove --purge nvidia-*
  1. 添加Graphic Drivers PPA: sudo add-apt-repository ppa:graphics-drivers/ppa
  2. 查看显卡硬件型号及推荐驱动版本: ubuntu-drivers devices
    安装430驱动版本:sudo apt-get install nvidia-driver-430
  1. 修复依赖关系:sudo apt-get -f install
  2. 安装推荐版本(安装大量的包): sudo ubuntu-drivers autoinstall

1.2 cuda 和 cudnn

1.2.1 cuda

  1. 官网驱动和cuda对应版本
  2. 官网gcc和cuda对应版本
  3. 官网cuda版本
  1. sudo apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libgl1-mesa-dev libglu1-mesa libglu1-mesa-dev libxi-dev
  2. chmod +x cuda_.xxxx_linux.run
  3. sudo ./cuda_9.xxxx_linux.run
    (1) 询问是否装附带的驱动时,要选N! 附带的驱动是旧版本会有问题.
  1. 设置环境变量: sudo vim /etc/profile
    (1) export PATH=/usr/local/cuda-9.0/bin:$PATH
    (2) export LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64:$LD_LIBRARY_PATH
    (3) 环境变量生效
      [1] source ~/.bashrc
      [2] sudo ldconfig
  2. 检查cuda是否配置正确: nvcc --version
  3. 测试cuda的samples
    (1) cd /home/NVIDIA_CUDA-9.0_Samples && make
    (2) cd ./bin/x86_64/linux/release
    (3) ./deviceQuery, Result = PASS就算成功
  4. nvidia-smi 显示CUDA 版本与 nvcc不一致:
    (1) 原因:CUDA 有两种API,Runtime API 与 Driver API
  1. nccl 下载
    (1) import mxnet 时使用,多块GPU并行训练的工具
    (2) 下载 tgz 包
    (3) vim ~/.bashrc
    (4) export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/alg_env_install/nccl_2.8.3-1+cuda10.1_x86_64/lib
    (5) source ~/.bashrc

1.2.2 cudnn

  1. 官网cudnn版本
    (1) cuDNN 是GPU加速计算深层神经网络的库
    (2) developer library:包含了开发所需的cuDNN头文件
    (3) cuDNN Library for Linux:相对简单,下载、解压、把相应的文件拷贝到指定目录、赋予权限就可以了。
    (4) runtime library:不能开发编译,只是用于运行某些应用
  1. sudo dpkg -i libcudnn**_amd64.deb
  2. 验证
    (1) cp -a /usr/src/cudnn_samples_v7 /home/
    (2) cd mnistCUDNN && make
    (3) ./mnistCUDNN, Test passed!说明cudnn安装成功

1.3 linux 的 TensorFlow Docker 映像

  1. Docker搭建指南

注:(1) 需在主机上安装 NVIDIA GPU 驱动程序

1.4 conda

  1. 分为anaconda和miniconda
    (1) anaconda 包含一些常用包
    (2) miniconda 是精简版,根据需要安装

1.4.1 使用方法

  1. 创建:conda create --name tf_gpu python=3.6
  2. 删除:conda remove -n tf_gpu --all
  1. 查看当前存在的环境: conda env list
  2. 打开/退出环境:conda activate tf_gpu / conda deactivate
  1. 搜索软件命令: conda search package
  2. 查看已安装软件: conda list
  3. 更新/卸载指定软件: conda update gatk / conda remove gatk
  4. 安装特定的版本: conda install 软件名==版本号
    (1) pip install tensorflow-gpu==1.14.0
    (2) pip install mxnet-cu101
       [1] cuda版本是10.1
    (3) pip install opencv-python
  1. 关闭bash自启动: conda config --set auto_activate_base false
  2. 显示安装频道: conda config --set show_channel_urls yes
  3. 添加安装频道
    (1)官方:
       conda config --add channels bioconda
       conda config --add channels conda-forge
    (2)清华:
       conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
       conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
       conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
       conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
  4. 查看添加channels: conda config --get channels

1.4.2 miniconda

  1. wget -c https://repo.continuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
  2. chmod 777 Miniconda3-latest-Linux-x86_64.sh
  3. bash Miniconda3-latest-Linux-x86_64.sh
  4. 在询问是否将conda加入环境变量的时候选择no
  5. 安装目录查找 miniconda3的 bin/activate
    (1) chmod 777 activate
    (2) . ./activate

1.4.3 Anaconda

  1. wget -c https://repo.continuum.io/archive/Anaconda3-2022.05-Linux-x86_64.sh
  2. chmod 777 Anaconda3-2022.05-Linux-x86_64.sh
  3. bash Anaconda3-2022.05-Linux-x86_64.sh
  4. sudo vim /etc/profile
    (1) export PATH=/home/anaconda3/bin:$PATH

1.5 Caffe

  1. caffe 下载: git clone https://github.com/BVLC/caffe.git
  2. sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libhdf5-serial-dev protobuf-compiler
  3. sudo apt-get install --no-install-recommends libboost-all-dev
  4. sudo apt-get install libatlas-base-dev
  5. sudo apt-get install libgoogle-glog-dev liblmdb-dev libgflags-dev
  1. 修改caffe工程Makefile、Makefile.config文件
    cd caffe
    cp Makefile.config.example Makefile.config

2. 常用命令

  1. 查看显卡信息: nvidia-smi
  2. 查看行数(比实际值多1): ls -l data/*.jpg | awk ‘{print $NF}’ #
  3. 查询目录个数:ls -l | grep “^d” | wc -l
  4. 查询文件个数:ls -lR | grep “^-” | wc -l
  5. 查看文件占用空间:du -sh data/
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值