docker下安装jupyterHub
安装docker
什么是docker
docker是一个开源的应用容器引擎,开发者可以打包自己的应用到容器里面,然后迁移到其他机器的docker应用中,可以实现快速部署。如果出现的故障,可以通过镜像,快速恢复服务。
Docker 包括三个基本概念:
镜像(Image):Docker 镜像就相当于是一个 root 文件系统,类似于面向对象编程中的类。
容器(Container):容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等,类似于面向对象编程中的对象。
仓库(Repository):仓库可看成一个代码控制中心,用来保存镜像。
Docker与传统虚拟机性能对比:
安装docker
1)centOs
安装docker运行所需要的依赖,执行命令:
yum install -y yum-utils device-mapper-persistent-data lvm2
为了加快下载速度,将yum源设为国内的阿里云镜像,执行命令:
yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo
安装docker-ce,执行命令:
yum clean all yum makecache fastyum -y install docker-ce
通过systemctl启动服务,执行命令:
systemctl start docker
查看docker版本,执行命令:
docker -v
2)Windows
Docker 并非是一个通用的容器工具,它依赖于已存在并运行的 Linux 内核环境。 Docker 实质上是在已经运行的 Linux
下制造了一个隔离的文件环境,因此它执行的效率几乎等同于所部署的 Linux 主机。因此,Docker 必须部署在 Linux
内核的系统上,如果其他系统想部署 Docker 就必须安装一个虚拟 Linux 环境。
win7、win8 等需要利用 docker toolbox 来安装,国内可以使用阿里云的镜像来下载,下载地址:http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/,docker toolbox 是一个工具集合,包括了所需的虚拟机,通过点击 Docker QuickStart 图标来启动 Docker Toolbox 终端。
3)Mac
Homebrew 的 Cask 已经支持 Docker for Mac,因此可以很方便的使用 Homebrew Cask 来进行安装:
$ brew install --cask --appdir=/Applications docker
docker的基本操作
1)列出机器上的镜像(images)
docker images
2)从docker registry server 中下拉image或repository(pull)
docker pull [OPTIONS] NAME[:TAG]
3)推送一个image或repository到registry(push)
$ docker push seanlook/mongo
$ docker push registry.tp-link.net:5000/mongo:2014-10-27
4)从image启动一个container启动容器
docker run -d -v /home/docker/code:/home/ocs90/src -p ip:hostPort:containerPort redis --net host --name “container_name” -it IMAGE [COMMAND]
参数:
映射文件目录:-v 宿主机目录(/home/docker/code):容器内目录(/home/ocs90/src)
端口映射:-p宿主机IP和端口:ip:hostPort;容器端口:containerPort
使容器内支持GDB调试:–cap-add=SYS_PTRACE –security-opt seccomp=unconfined
指定网络模式为host:–net host(host模式:docker和宿主机共享一个网络)
指定容器名称为:–name “container_name”
以交互模式进入容器:-it
容器以台运行模式启动:-d
运行原理:
- 检查本地是否存在指定的镜像,不存在就从公有仓库下载
- 利用镜像创建并启动一个容器
- 分配一个文件系统,并在只读的镜像层外面挂载一层可读写层
- 从宿主主机配置的网桥接口中桥接一个虚拟接口到容器中去
- 从地址池配置一个 ip 地址给容器
- 执行用户指定的应用程序
- 执行完毕后容器被终止
5)将一个container固化为一个新的image(commit)
当我们在container中安装一些工具、修改配置,如果不做commit保存起来,那么container停止以后再启动,这些更改就消失了。
docker commit [repo:tag]
后面的repo:tag可选
只能提交正在运行的container,即通过docker ps可以看见的容器,
6)查看所有的容器
$ docker ps -a
7)进入容器
在使用 -d 参数时,容器启动后会进入后台。此时想要进入容器,可以通过以下指令进入:
$ docker attach <containner_id>
$ docker exec -it <containner_id> /bin/bash
推荐使用 docker exec 命令,因为此退出容器终端,不会导致容器的停止。
8)开启/停止/重启container
CONTAINER_ID=$(docker start <containner_id>)
docker stop $CONTAINER_ID
docker restart $CONTAINER_ID
9)删除一个或多个container、image(rm、rmi)
docker rm <container_id/contaner_name> #删除容器
docker rm $(docker ps -a -q) #删除所有停止的容器
docker rmi <image_id/image_name …> #删除镜像
10)获取容器的输出信息(logs)
$ docker logs [container ID or NAMES]
11)生成新的image(build)
docker build [OPTIONS] PATH | URL
PATH或URL中的文件被称作上下文,build image的过程会先把这些文件传送到docker的服务端。如果PATH直接就是一个单独的Dockerfile文件则可以不需要上下文;如果URL是一个Git仓库地址,那么创建image的过程中会自动git clone一份到本机的临时目录,它就成为了本次build的上下文。无论指定的PATH是什么,Dockerfile是至关重要的,参考Dockerfile Reference
部署jupyterhub
jupyterhub简介
JupyterHub是由Jupyter团队推出的一个支持多用户notebook的服务器。JupyterHub本身具有权限管理、配置管理、启动Notebook、反向代理等功能。官网的示意图很好地阐述了JupyterHub的功能:
其中需要特别注意的是图中的spawners,它所表达的意思是,Hub会为每一个登录的用户Spawn(直译为繁衍,实际上是启动一个新的实例)一个notebook,而后对于访用户的所有操作,Hub都会把它路由到这个notebook实例。这就是JupyterHub实现用户工作区虚拟化的方式。
JupyterHub 架构的介绍和原理详见官方文档,这里不再赘述,简单说就是 JupyterHub 把多用户认证和单用户(JupyterNotebook/JupyterLab) 的管理拆成了 Authenticator 和 Spawner 模块,可以根据不同的需要配置不同的认证方式或管理方式。
部署步骤
1)拉取相关镜像,并设置和本地映射:
不要拉取latest版本,latest版本存在Bug
docker run -p 8000:8000 -d --name jupyterhub -v /opt/jupyterhub/jupyterhub:/srv/jupyterhub -v /opt/jupyterhub/home:/home --restart=always jupyterhub/jupyterhub:1.0.0 jupyterhub
2)进入docker
$ docker exec -it jupyterhub bash
3)增加用户用于登录jupyterhub的账户密码
useradd jupyterhub
passwd jupyterhub
此时打开http://localhost:8000(http://127.0.0.1:8000/hub/login) 显示如下界面:
4)安装jupyterhub和notebook
pip install jupyterhub --upgrade
pip install notebook --upgrade
5)配置jupyterhub在启动后在哪个目录存储文件,并添加权限
chmod -R 777 home
cd /home
mkdir jupyterhub
chown jupyterhub:jupyterhub jupyterhub -R
6)启动jupyterhub
刷新http://localhost:8000 界面,可以正常创建文件
文件保存在设置的相应路径
7)设置admin
当前点击control Panel显示
设置当前账户为admin
创建config文件
设置当前账户为admin后
再次登录,点击control Panel显示如下,可以管理Users:
配置JupyterHub使用JupyterLab
JupyterHub默认是使用Jupyter Notebook,如果想使用Jupyter
Notebook的升级版本JupyterLab,还需要额外配置。
JupyterLab简介
JupyterLab是Jupyter主打的最新数据科学生产工具,某种意义上,它的出现是为了取代Jupyter Notebook,JupyterLab包含了Jupyter Notebook所有功能。
JupyterLab作为一种基于web的集成开发环境,可以使用它编写notebook、操作终端、编辑markdown文本、打开交互模式、查看csv文件及图片等功能。
upyterLab有以下特点:
- 交互模式:Python交互式模式可以直接输入代码,然后执行,并立刻得到结果,因此Python交互模式主要是为了调试Python代码用的
- 内核支持的文档:可以在Jupyter内核中运行的任何文本文件(Markdown,Python,R等)中启用代码
- 模块化界面:可以在同一个窗口同时打开好几个notebook或文件(HTML, TXT, Markdown等等),都以标签的形式展示,更像是一个IDE
- 镜像notebook输出:轻易地创建仪表板
- 同一文档多视图:实时同步编辑文档并查看结果
- 支持多种数据格式:既可以查看并处理多种数据格式,也能进行丰富的可视化输出或者Markdown形式输出
- 云服务:使用Jupyter Lab连接Google Drive等服务,极大得提升生产力
JupyterLab安装
首先进入docker相应的container,执行:
$ docker exec -it jupyterhub bash
然后安装JupyterLab,执行:
pip install jupyterlab
要想在JupyterHub使用JupyterLab还需要安装个插件,执行下面的命令进行安装:
jupyter labextension install @jupyterlab/hub-extension
这里可能会提示ValueError: Please install nodejs >=12.0.0 before continuing. 此时依次执行如下步骤再安装插件即可:
node --version # 查看当前版本
npm cache clean -f # 清楚缓存
npm install -g n # 获取版本管理工具
n stable # 获取最新稳定版本
配置JupyterHub使用JupyterLab
修改jupyterhub_config.py文件中的
c.Spawner.cmd = ['jupyterhub-singleuser']
为
c.Spawner.cmd = ['jupyter-labhub']
然后重启服务即可。
多用户JupyterHub登录
登录认证方式
当我们需要考虑JupyterHub为多用户服务时,首先考虑用户的认证问题。
JupyterHub默认采用PAMAuthenticator认真授权:
c.JupyterHub.authenticator_class = 'jupyterhub.auth.PAMAuthenticator'
PAM这个授权方式是服务器用户的登录认证方式,比如当我们在服务器追加一个用户user,就可以配置允许这个用户登录。
当然JupyterHub也支持别授权方式,比如接入GitHub、Google的OAuth、LDAP、RemoteUser等认证。
登录用户控制
JupyterHub支持多用户登录,对于用户登录的控制也提供多种方式:
- 用户黑名单控制 – c.Authenticator.blacklist
写在黑名单的用户会被限制登录。如配置:c.Authenticator.whitelist = { ‘user1’ },则user1就不能登录了。 - 用户白名单控制 – c.Authenticator.whitelist
写在白名单的用户才能登录。如配置:c.Authenticator.whitelist = { ‘user1’ },则只有user1能登录。该项优先级高于黑名单。 - 管理员用户 – c.Authenticator.admin_users
管理员用户可以查看登录的用户,某些授权方式下可以添加/删除用户,可以重启或停止Hub,可以停止其他用户的服务,如果有配置的话还可以访问其用户的内容。 - 用户组白名单 – c.LocalAuthenticator.group_whitelist
如果是采用默认的基于本地用户的授权方式,还能够通过用户组白名单来进行授权。如果配置了这项,用户白名单会失效。
c.Authenticator.whitelist是配置控制用户登录的配置项,默认不限制任何用户登录。如果有配置内容,则限制只有配置的这些用户可以登录。如:c.Authenticator.whitelist = { ‘user1’ },则只有user1能登录。
现在我们在之前的基础上追加用户user1 和 user2
c.Authenticator.whitelist = set(['user1' , 'user2'])
设置user1和user2用户的账户密码,此时刷新admin账户jupyterhub,我们可以看到多用户已经更新为:
此时登录user1用户并点击user1的access server
提示Authorize access授权访问:
点击Token可以进行配置
如果配置可访问则我们在jupyterhub用户中可以直接读写user1的文件,否则提示没有权限:
jupyterHub支持GPU
Docker内无法使用GPU,也就是说docker下的 jupyterHub无法支持tensor flow GPU,如果想在docker下的jupyterHub中使用GPU需要安装nvidia docker
# 如果安装 nvidia-docker 1.0,需要先删除它以及所有存在的GPU containers
docker volume ls -q -f driver=nvidia-docker | xargs -r -I{} -n1 docker ps -q -a -f volume={} | xargs -r docker rm -f
sudo apt-get purge -y nvidia-docker
# 添加相关包存储库
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update
# 安装nvidia-docker2 ,重新加载Docker daemon配置
sudo apt-get install -y nvidia-docker2
sudo pkill -SIGHUP dockerd
# 拉取最新的官方CUDA镜像检测nvidia-smi
docker run --runtime=nvidia --rm nvidia/cuda:9.0-base nvidia-smi