安裝 NVIDIA Docker
STEP 1
在 CentOS Linux 中安裝好基本的 Docker 環境,以及 NVIDIA 驅動程式,確認 NVIDIA 顯示卡可以正常運作。
STEP 2
安裝 nvidia-docker
RPM 套件:
wget -P /tmp https://github.com/NVIDIA/nvidia-docker/releases/download/v1.0.1/nvidia-docker-1.0.1-1.x86_64.rpm sudo rpm -i /tmp/nvidia-docker*.rpm && rm /tmp/nvidia-docker*.rpm sudo systemctl start nvidia-docker
在 NVIDIA Docker 中執行 nvidia-smi
指令,進行測試:
nvidia-docker run --rm nvidia/cuda nvidia-smi
正常的話,應該就可以看到 NVIDIA 顯示卡的資訊了。
NVIDIA Docker 測試輸出訊息
這樣就完成 NVIDIA Docker 的安裝了。
接著從 Docker Hub 下載最新的 nvidia/cuda
Docker 影像:
nvidia-docker pull nvidia/cuda
檢查這個 nvidia/cuda
Docker 影像中的 nvcc
編譯器版本:
nvidia-docker run --rm -ti nvidia/cuda nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2016 NVIDIA Corporation Built on Tue_Jan_10_13:22:03_CST_2017 Cuda compilation tools, release 8.0, V8.0.61
若需要舊版 CUDA 的人,可以直接指定 CUDA 版本:
nvidia-docker run --rm -ti nvidia/cuda:7.0 nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2015 NVIDIA Corporation Built on Mon_Feb_16_22:59:02_CST_2015 Cuda compilation tools, release 7.0, V7.0.27
我們可以在 Docker 容器中開啟一個互動式的 bash shell,在這個環境下我們可以檢查此容器中的環境(例如 /usr/local/cuda
之下的 CUDA 安裝內容,或是其他系統套件工具):
nvidia-docker run --rm -ti nvidia/cuda bash
在 Docker 容器中我們可以使用 apt 這類的套件管理工具安裝各種套件,只不過所有的變動在離開 Docker 容器之後就會消失,不會被儲存起來,我們可以放心在這裡面做各種的測試,這個特性也是 Docker 的特色之一,隨後我們將介紹在 Docker 影像中新增內容的方法。
建立 Docker 中的 GPU 應用程式
這裡我們以 CUDA 8.0 的 Docker 影像為基礎,示範如何在 Docker 容器中編譯 deviceQuery
這個最簡單的 CUDA 設備查詢程式,並且在 Docker 容器中執行這個 CUDA 程式。
首先建立一個 Dockerfile
,內容如下:
# 基礎的 Docker 影像 FROM nvidia/cuda # 安裝 deviceQuery 原始碼 RUN apt-get update && apt-get install -y --no-install-recommends \ cuda-samples-$CUDA_PKG_VERSION && \ rm -rf /var/lib/apt/lists/* # 設定工作目錄 WORKDIR /usr/local/cuda/samples/1_Utilities/deviceQuery # 編譯 deviceQuery RUN make # Docker 容器主要的執行程式 CMD ./deviceQuer
關於 Dockerfile
的寫法,請參考 Docker 官方的說明文件。
根據這個 Dockerfile
建立 Docker 影像:
nvidia-docker build -t device-query .
建立好之後,檢查一下目前可用的 Docker 影像:
docker images
REPOSITORY TAG IMAGE ID CREATED SIZE device-query latest 924f7af38829 21 seconds ago 1.97 GB guozhaowang/gtwang-demo part1 810b6202eaea 16 hours ago 194 MB nvidia/cuda latest 614dcdafa05c 5 days ago 1.67 GB gcr.io/tensorflow/tensorflow latest-gpu 85c8f551e1d2 11 days ago 2.89 GB tensorflow/tensorflow latest-gpu 85c8f551e1d2 11 days ago 2.89 GB hello-world latest 1815c82652c0 11 days ago 1.84 kB nvidia/cuda 7.0 65b5dd170f5e 6 months ago 1.2 GB
接著執行 device-query
這個剛建立好的 Docker 影像:
nvidia-docker run --rm -ti device-query
正常來說,這樣就可以在 Docker 執行 deviceQuery
這個 CUDA 程式了,其輸出會是 CUDA 設備的資訊。
deviceQuery
輸出訊息
NVIDIA Docker 有提供指定 GPU 的功能,我們可以使用 NV_GPU
這個環境變數來指定 Docker 容器可使用的 GPU 編號,例如讓 Docker 容器使用第二個 GPU 設備(編號 1
):
NV_GPU=1 nvidia-docker run --rm -ti device-query
這樣使用 deviceQuery
程式查詢出來,就只會出現一張 CUDA 的顯示卡。
deviceQuery
輸出訊息
佈署 Docker 中的 GPU 應用程式
製作好 GPU 應用程式的 Docker 影像之後,我們就可以仿照一般 Docker 影像的方式,先將 GPU 應用程式的 Docker 影像標上正式的名稱:
nvidia-docker tag device-query guozhaowang/device-query
再將該 Docker 影像上傳至 Docker Cloud:
docker push guozhaowang/device-query
接著我們就可以在任何 Docker 環境下,執行這個 Docker 中的 CUDA 程式了:
nvidia-docker run --rm -ti guozhaowang/device-query
實際應用
NVIDIA DIGITS 是一套可以使用 GPU 運算的深度學習系統,而這套系統也有提供 Docker 包裝的版本,對於任何這類 NVIDIA GPU 的 Docker 應用程式,我們都可以使用相同的方式在任何有 NVIDIA GPU 顯示卡的機器上執行:
nvidia-docker run --name digits -p 5000:5000 nvidia/digits
這是 NVIDIA DIGITS 的網頁操作介面:
NVIDIA DIGITS
Google 的 TensorFlow 機器學習系統也可以用這樣的方式執行(請參考 Docker Hub):
nvidia-docker run -it -p 8888:8888 tensorflow/tensorflow:latest-gpu
這是 TensorFlow 的 Jupyter Notebook 網頁介面:
TensorFlow 的 Jupyter Notebook 網頁介面
問題與解決方法
如果出現這樣的錯誤訊息:
nvidia-docker | 2017/06/23 14:00:27 Error: Got permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get http://%2Fvar%2Frun%2Fdocker.sock/v1.27/version: dial unix /var/run/docker.sock: connect: permission denied
就將需要使用 NVIDIA Docker 環境的帳號加入至 docker
群組中即可解決:
sudo usermod -a -G docker seal