![487a99f6dc93e667c8c328d251941c65.png](https://img-blog.csdnimg.cn/img_convert/487a99f6dc93e667c8c328d251941c65.png)
初识docker,记录本地docker镜像配置kaggle环境,便于复现kaggle比赛,偶尔自己试下水。
1. 安装Mac版 Docker ,注册doker,安装完登陆docker
2.配置 Docker 镜像站,docker->Preferences->Docker Engine,插入配置,应用
"registry-mirrors": [sha1:49b45bad
"http://f1361db2.m.daocloud.io",
"https://docker.mirrors.ustc.edu.cn",
"https://hub-mirror.c.163.com"
![be1a03709966866cfebb8ca96e363e9a.png](https://img-blog.csdnimg.cn/img_convert/be1a03709966866cfebb8ca96e363e9a.png)
拉取镜像 docker pull kaggle/python,17G ,预留足够空间
![052702222aa9206febc5bb0ce998e1c1.png](https://img-blog.csdnimg.cn/img_convert/052702222aa9206febc5bb0ce998e1c1.png)
3.本地创kaggle文件夹来与虚拟机交互文件:~/working/docker/kaggle
4.docker 常用命令
docker run --name kaggle -it kaggle/python 启动容器
docker ps 运行中容器
docker images 查看本地镜像
docker exec (id or name) 进入容器
docker stop id 终止某个容器
5.配置jupyter
(1)ipython:设定密码,远程登陆
from notebook.auth import passwd
passwd()
![1eb5a382abd7865dcf2b2ce69f16668e.png](https://img-blog.csdnimg.cn/img_convert/1eb5a382abd7865dcf2b2ce69f16668e.png)
(2)生成jupyter notebook的配置文件
jupyter notebook --generate-config
(3)修改配置文件,安装vim:apt-get install vim,vim ~/.jupyter/jupyter_notebook_config.py
# 修改对应部分
c.NotebookApp.ip='*'
c.NotebookApp.password = u'sha1:41e4da01dde4:e82*******************'
c.NotebookApp.open_browser = False
c.NotebookApp.port =8888
(4)commit,便于后续使用
docker ps #找到对应的i
docker commit id kaggle/python:v1
(5)配置.zshrc,便于登陆,source ~/.zshrc (使用kaggle/python:v1 )
vi ~/.zshrc
docker_notebook='docker run -v $PWD:/tmp/working/kaggle -w=/tmp/working/kaggle -p 7777:8888 --rm -it kaggle/python:v1 jupyter notebook --no-browser --ip="0.0.0.0" --notebook-dir=/tmp/working --allow-root'
# -name kaggle 取名便于使用 -p为端口映射,-v为本地路 -w为linux映射到的地址
# 服务器本身7777端口映射到container的8888端口,notebook的默认端口是8888,
# -d 代表在后台运行。查看端口lsof -i :8888
(6)修改镜像源,继续commit :docker commit id kaggle/python:v1
cd /root
mkdir .pip
cd .pip
vi pip.conf
[global]
index-url = https:// pypi.tuna.tsinghua.edu.cn /simple
[install]
trusted-host= http:// pypi.tuna.tsinghua.edu.cn
timeout = 6000
安装pyspark,!pip install pyspark 速度慢,直接下载源码(推荐neatdownmanager多线程下载)到本地kaggle目录下安装即可,
!pip install pyspark-3.0.1.tar.gz
(7)docker_notebook 运行:http://127.0.0.1:7777 (服务器本身7777端口映射到container的8888端口)
6.kaggle api:参考进行配置,利用kaggle进行各种尝试
https://github.com/Kaggle/kaggle-apigithub.com