(二)为AI和机器学习创建Docker容器

目录

介绍

基本镜像

创建Dockerfile

构建镜像

运行容器

总结


介绍

Docker等容器技术显着简化了软件的依赖管理和可移植性。在本系列文章中,我们探讨了Docker在机器学习(ML)场景中的使用。

本系列假设您熟悉ML、一般容器化,尤其是Docker。欢迎您下载项目代码

在本系列的上一篇文章中,我们已经讨论了Docker基础知识。在本文中,我们将开始应用这些知识,同时在各种ML场景中创建和运行容器。首先,我们将创建一个用于实验和训练的通用容器。

基本镜像

在考虑镜像大小和安全性时,Alpine Linux似乎是基本镜像的明显选择。但是对于Python应用程序,它并不是那么简单。Alpine使用musl——一个不同于大多数标准Linux发行版使用的glibC库。这使得大多数编译的Pip轮子不兼容,因此在安装过程中需要编译。实际上,在Alpine上设置任何重要的Python环境(具有多级依赖项)比在更流行的发行版(如DebianUbuntu)上花费的时间要多得多。不仅如此,结果镜像可能更大,代码可能运行得更慢!

有关更多详细信息,请查看这篇文章。为避免上述问题,我们将选择构建在Debian 10(Buster)之上的官方Python镜像的最小版本作为基础:python:3.8.8-slim-buster

创建Dockerfile

我们需要一个带有基本ML库和Jupyter Notebook的镜像来处理实验。我们将所有需要的库存储在app/requirements.txt文件中:

numpy==1.19.5
pandas==1.2.2
scikit-learn==0.24.1
matplotlib==3.3.4
jupyter==1.0.0
opencv-python==4.5.1.48
tensorflow-cpu==2.4.0

现在,让我们开始创建我们的Dockerfile

FROM python:3.8.8-slim-buster
ARG DEBIAN_FRONTEND=noninteractive
RUN apt-get update \
&& apt-get -y install --no-install-recommends ffmpeg libsm6 libxext6 \
&& apt-get autoremove -y && apt-get clean -y && rm -rf /var/lib/apt/lists/*

首先,切换到非交互模式后,我们安装Python库所需的所有系统依赖项,然后清理以限制镜像大小。请注意,如果您更改requirements.txt,这些依赖项可能会有所不同。

接下来,我们在运行容器时使用非root用户:

ARG USERNAME=mluser
ARG USERID=1000
RUN useradd --system --create-home --shell /bin/bash --uid $USERID $USERNAME

如果需要,使用USERNAMEUSERID值的参数可以让我们在构建和执行期间替换它们。

然后,让我们配置一个Python 环境:

COPY app/requirements.txt /tmp/requirements.txt
RUN pip3 install --no-cache-dir -r /tmp/requirements.txt \
&& rm /tmp/requirements.txt

最后,如果没有指定其他命令,我们切换到新用户并默认启动一个Jupyter Notebook

USER $USERNAME
WORKDIR /home/$USERNAME/app
EXPOSE 9000
CMD ["jupyter", "notebook", "--ip", "0.0.0.0", "--port", "9000"]

构建镜像

Linux上,我们应该始终使用预先确定的用户来运行容器。这确保容器的内部进程以及保存到映射主机驱动器的文件将具有预期的所有者。在以下示例中,我们确保当前用户对构建image mld02_cpu_experiment时创建的所有文件具有适当的权限:

$ docker build --build-arg USERID=$(id -u) -t mld02_cpu_experiment .

提供的--build-arg USERID参数将使用提供的值替换Dockerfile的预定义USERID参数。

实际上,只有在Linux上本地运行容器时才需要这样做。镜像的默认值(1000)可能会导致主机出现问题,并且容器需要对镜像中包含的用户文件夹或文件的写入权限。在任何其他情况下,您可以跳过此步骤。

运行容器

容器搭建好后,我们就可以试一试了。假设我们已经下载并提取了示例代码,我们运行我们的Jupyter Notebook实例:

$ docker run -p 9000:9000 -v $(pwd)/app:/home/mluser/app -v $(pwd)/data:/home/mluser/data --rm --user $(id -u):$(id -g) mld02_cpu_experiment

Windows上:

$ docker run -p 9000:9000 -v %cd%/app:/home/mluser/app -v %cd%/data:/home/mluser/data --rm mld02_cpu_experiment

这里的参数是:-p将容器端口映射到主机端口,-v将主机的应用程序和数据文件夹映射到容器文件夹(绝对路径),并且--user确保我们在当前主机用户的上下文中执行容器代码(以获得一个映射文件夹中文件的正确所有者)。该--rm标志可确保在容器停止后立即自动删除所有容器数据。

如果一切顺利,我们应该会看到Jupyter Notebook的日志在旋转:

多亏了映射的端口,我们应该能够使用http://localhost:9000(或上述日志中的 URL)在 Web 浏览器中打开笔记本。

简单的Training.ipynb包含我们使用简单的TensorFlow模型训练示例MNIST模型所需的一切。执行完所有单元后,我们应该期待以下确认模型的预测是正确的:

我们将在后续文章中使用此notebook保存的训练模型进行推理。

总结

在本文中,我们创建了一个用于实验的基本容器。在下一篇文章中​​​​​​​,我们将创建一个容器来在训练后的模型上运行CPU推理。

https://www.codeproject.com/Articles/5300725/Creating-Docker-Containers-for-AI-and-Machine-Lear

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值