0. 引言
官网上给出了一个简要的安装说明,完整的caffe安装可以总结为下面8个步骤:
- Boost >= 1.55,protobuf, glog, gflags,hdf5, leveldb, snappy, lmdb等依赖库
- CUDA安装
- 线性代数依赖程序(BLAS),可以选择ATLAS, MKL, 或者 OpenBLAS
- opencv
- cuDNN加速
- 安装python依赖库
- caffe安装
- 编译Python wrapper
然而,官网未给出详细的每一项的安装指导,看过官网教程后还是一脸茫然,不知道如何下手。我在安装过程中主要参考了这篇博客ubutu14.04+cuda7.0+caffe安装配置和这篇博客Caffe + Ubuntu 14.04 64bit + CUDA 6.5 配置说明。下面按照上面8项的顺序,详细介绍安装过程。
电脑系统是Ubuntu 14.04 64位,GPU是GTX970,开发环境Python 2.7。
1. 安装开发所需的依赖包
sudo apt-get install build-essential
sudo apt-get install libprotobuf-dev libleveldb-dev libsnappy-dev libopencv-dev libboost-all-dev libhdf5-serial-dev libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler
2. 安装CUDA 7.5
2.1 安装前验证
根据nvidia官网的要求,在安装CUDA前要进行必要的验证,主要包括下面四项:
检查自己的GPU是否支持CUDA,执行下面命令行:
lspci | grep -i nvidia
验证安装的Linux版本是否支持CUDA:
uname -m && cat /etc/*release
验证系统是否安装了gcc:
gcc --version
验证系统是否安装了正确的内核头文件和开发包:
sudo apt-get install linux-headers-$(uname -r)
2.2 安装CUDA
在Ubuntu下CUDA有三种安装方式:离线.run安装,离线.deb安装,在线.deb安装,本文中使用比较简单的离线.deb安装方式。首先在nvidia下载cuda-repo-ubuntu1404-7-5-local_7.5-18_amd64.deb文件,然后切换到下载.deb文件的目录,执行下面步骤:
sudo dpkg -i cuda-repo-ubuntu1404-7-5-local_7.5-18_amd64.deb
sudo apt-get update
sudo apt-get install cuda
2.3 设置环境变量
安装CUDA结束后,在/etc/profile文件中添加CUDA环境变量,执行shell命令:
sudo gedit /etc/profile
打开文档都在文档结尾加上下面两句:
PATH=/usr/local/cuda/bin:$PATH
export PATH
保存后, 执行下列命令, 使环境变量立即生效:
source /etc/profile
同时添加lib库路径,在 /etc/ld.so.conf.d/新建文件 cuda.conf,执行shell命令:
sudo gedit /etc/ld.so.conf.d/cuda.conf
在文中加入下面内容:
/usr/local/cuda/lib64
执行下列命令使之立刻生效
sudo ldconfig
2.4 安装CUDA SAMPLE
进入/usr/local/cuda/samples,执行下面命令编译 samples:
sudo make all -j4
整个过程大概5分钟左右,全部编译完成后, 进入 samples/bin/x86_64/linux/release, 运行deviceQuery:
sudo ./deviceQuery
如果出现下列显卡信息, 则驱动及显卡安装成功:
./deviceQuery Starting...
CUDA Device Query (Runtime API) version (CUDART static linking)
Detected 1 CUDA Capable device(s)
Device 0: "GeForce GTX 970"
CUDA Driver Version / Runtime Version 7.5 / 7.5
CUDA Capability Major/Minor version number: 5.2
Total amount of global memory: 4095 MBytes (4294246400 bytes)
(13) Multiprocessors, (128) CUDA Cores/MP: 1664 CUDA Cores
GPU Max Clock rate: 1266 MHz (1.27 GHz)
Memory Clock rate: 3505 Mhz
Memory Bus Width: 256-bit
L2 Cache Size: 1835008 bytes
Maximum Texture Dimension Size (x,y,z) 1D=(65536), 2D=(65536, 65536), 3D=(4096, 4096, 4096)
Maximum Layered 1D Texture Size, (num) layers 1D=(16384), 2048 layers
Maximum Layered 2D Texture Size, (num) layers 2D=(16384, 16384), 2048 layers
Total amount of constant memory: 65536 bytes
Total amount of shared memory per block: 49152 bytes
Total number of registers available per block: 65536
Warp size: 32
Maximum number of threads per multiprocessor: 2048
Maximum number of threads per block: 1024
Max dimension size of a thread block (x,y,z): (1024, 1024, 64)
Max dimension size of a grid size (x,y,z): (2147483647, 65535, 65535)
Maximum memory pitch: 2147483647 bytes
Texture alignment: 512 bytes
Concurrent copy and kernel execution: Yes with 2 copy engine(s)
Run time limit on kernels: Yes
Integrated GPU sharing Host Memory: No
Support host page-locked memory mapping: Yes
Alignment requirement for Surfaces: Yes
Device has ECC support: Disabled
Device supports Unified Addressing (UVA): Yes
Device PCI Domain ID / Bus ID / location ID: 0 / 1 / 0
Compute Mode:
< Default (multiple host threads can use ::cudaSetDevice() with device simultaneously) >
deviceQuery, CUDA Driver = CUDART, CUDA Driver Version = 7.5, CUDA Runtime Version = 7.5, NumDevs = 1, Device0 = GeForce GTX 970
Result = PASS
3. 安装BLAS
官网给出三种常用的线性代数依赖库(BLAS):ATLAS, MKL, 或者 OpenBLAS。本文中采用ATLAS,安装命令为:
sudo apt-get install libatlas-base-dev
4. 安装Opencv 3.0
本文中使用的opencv是3.0版本,安装过程参考这篇文章ubuntu14.04中安装opencv2.4.9:
4.1 源码下载
在opencv官网上下载源码opencv-3.0.0.zip并解压。
4.2 依赖库的安装
可以看到在OpenCV目录下,有个CMakeLists.txt文件,需要事先安装一些软件:
sudo apt-get install build-essential cmake libgtk2.0-dev pkg-config python-dev python-numpy libavcodec-dev libavformat-dev libswscale-dev
4.3 安装
进入源码目录,创建release目录:
mkdir release
进入release目录,安装OpenCV是所有的文件都会被放到这个release目录下
cd release
cmake编译OpenCV源码,安装所有的lib文件都会被安装到/usr/local目录下
cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local ..
安装
sudo make install
这个过程大概需要60分钟左右,请耐心等待。当然也可以使用别人写好的脚本进行安装,为了避免安装过程中可能发生的错误,本文推荐直接对源码进行编译安装。
4.4 测试
进入opencv-3.0.0/samples/cpp/example_cmake目录,编译代码,得到可执行文件后,运行./opencv_example,可以在弹出的窗口看到Hello OpenCV字样,说明opencv安装成功。
5. 安装cuDNN
为了加速caffe,可以安装cuDNN。本文安装的版本是7.0。由于在官网上下载时需要注册,很难申请到。可以去百度云等云盘搜索,一般可以找到。下载压缩包后,解压,进入解压后的文件,执行下面命令:
sudo cp lib* /usr/local/cuda/lib64/
sudo cp cudnn.h /usr/local/cuda/include/
更新软连接:
cd /usr/local/cuda/lib64/
sudo rm -rf libcudnn.so libcudnn.so.7.0
sudo ln -s libcudnn.so.7.0.58 libcudnn.so.7.0
sudo ln -s libcudnn.so.7.0 libcudnn.so
原理可以参考这篇文章nvidia cudnn安装说明 。
6. 安装python依赖库
需要的Python库主要包括:numpy,boost.python和pandas等。
先到caffe的github下载caffe的源代码。进入caffe-master下的Python目录,执行下面命令:
for req in $(cat requirements.txt); do pip install $req; done
同时caffe的官网推荐Anaconda,这个包里包含了大部分的Python开发库,可以安装,不过也可以跳过。本文不详细介绍它的安装过程了。
7. 安装caffe
7.1. 复制并修改Makefile.config
终于到了caffe的安装这一步了,首先进入caffe-master目录,复制一份Makefile.config:
cp Makefile.config.example Makefile.config
然后修改里面的内容,主要需要修改的参数包括:
CPU_ONLY 是否只使用CPU模式,没有GPU没安装CUDA的同学可以打开这个选项。
BLAS,若使用intel mkl在配置文件中修改为BLAS := mkl;若使用OpenBLAS,配置文件中修改为BLAS := open。若按照前面的流程安装的ATLAS的话,配置文件这儿不需要修改。
编译CUDNN需要在配置文件中修改为:USE_CUDNN := 1
7.2. 修改Makefile文件
这一步是针对安装opencv3.0.0版本的同学而言的,对于3.0.0之前的版本可能不需要修改Makefile文件,参考的这篇文章
CAFFE安装2:MKL python 和 caffe。
在位置((LIBRARIES+= glog gflags protobuf leveldb snappy lmdbboost_system hdf5_hl hdf5 m
opencv_coreopencv_highgui opencv_imgproc opencv_imgcodecs))处添加opencv_imgcodecs
这一步非常重要,否则编译后会出现错误如下:
CXX/LD-o.build_release/tools/convert_imageset.bin
.build_release/lib/libcaffe.so:undefined reference tocv::imread(cv::String const&,int)'.build_release/lib/libcaffe.so: undefined referencetocv::imencode(cv::String const&, cv::_InputArray const&,std::vector >&, std::vector > const&)'
原因就是opencv3.0.0把imread相关函数放到imgcodecs.lib中了,而非原来的imgproc.lib。
7.3. 编译caffe
完成上述设置后, 开始编译caffe:
make all -j4
make test -j4
make runtest -j4
-j4在这儿的作用是使用4个CPU核心进行编译,可以极大地加速编译的速度,建议使用。
8. 编译Python wrapper
make pycaffe
到此,整个caffe在Ubuntu上的安装过程结束,可以运行一个caffe自带的例子(比如MNIST)测试安装的效果。在我的机器上运行/examples/mnist下的train_lenet.sh程序,使用GPU跑完10000次迭代需要大概3分钟,切换到CPU后跑完同样的10000此迭代花了接近11分钟,可见,GPU有4倍的加速。