高效率编写Dockerfile需要绕过的一些坑

最新推荐文章于 2024-08-07 02:22:52 发布

置顶独行侠梦

最新推荐文章于 2024-08-07 02:22:52 发布

阅读量3k

点赞数

分类专栏： docker学习

本文链接：https://blog.csdn.net/u012811805/article/details/104638007

版权

docker学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前言

在日常的开发和运维中，我们时长会使用Dockerfile脚本制作镜像。
其实编写一个Dockerfile文件用到的标签并不会太多，但是不同的Dockerfile在制作后产生的镜像大小是不尽相同的，这篇文章就来梳理一下，编写脚本过程中，容易犯的错误和躺的坑。

一、拉取最新的镜像

在从镜像仓库拉取镜像时，不指定任何版本的情况下，默认会拉取最新（latest）的版本。这在我们构建集群和复用时会造成困扰，也就是说只要组件的镜像仓库还在更新，不同时间拉取到的镜像版本可能是不一样的，那样简直太混乱了，所以，在拉取镜像时，记得加上具体的版本号。

file

二、在构建时使用外部脚本命令

很多人在构建镜像时，没有明确的区分出在宿主机上和在容器内执行的区别。
构建映像时，Docker读取Dockerfile中的命令并从中创建镜像，不应该在文件里使用一些宿主机上的命令，因为这些环境在容器内，可能压根就没有。如：

# !!! 宿主机上有python环境，但容器内部可能没有，这是两套环境 !!!

RUN python start.py

三、把容易变化的命令放前面

在保证逻辑执行正确的情况下，可以把不容易变化的命令放在前面，因为这样可以
我们应该把变化最少的部分放在 Dockerfile 的前面，这样可以充分利用镜像缓存。

什么是镜像缓存？

Dockerfile 中每一个指令都会创建一个镜像层，依赖顺序和命令的顺序刚好相反，比如最开始的from centos7.3 就是最底层的基础镜像。在构建时会缓存已有镜像的镜像层，如果某镜像层已经存在，就直接使用，无需重新创建。

原镜像1.0版本构建后的某一天，某个小伙伴说：需要修改start.sh来创建一个新的1.1版本的镜像，由于合理的组织命令顺序，所以能命中很多的层，构建效率也大大加快了。

file

还想提一点的是，ENV，设置环境变量命令。

在Dockerfile中无论是后面的其它指令，如 RUN，还是在容器中，运行时的应用，都可以直接使用这里定义的环境变量。我们在创建某种组件的镜像时，常常将组件的版本号设置为一个环境变量，其好处是方便我们后的续修改。所以这里建议，在Dockerfile的后续命令中，没有用到的环境变量，尽量定义到最后面，原因你懂的（改版本后能尽量命中更多缓存）。

四、非正规的混乱多个镜像

举一个极端的例子，假如你想要构建的镜像既有python环境，又有java环境，可能会写出如下的命令：

FROM jdk:1.8.9
FROM python:3.5

不过这并不会达到预期的效果，Docker会使用最后的一个FROM，并且忽略掉前面所有的From内容。所以正确的做法应该先使用Dockerfile构建一个具有java和python环境的centos基础镜像，然后你的程序再依赖这个基础镜像即可。

注意，上述原理只在Docker v17.05 前，在这个版本后，为解决以上问题，开始支持多阶段构建 (multistage builds)。使用多阶段构建我们就可以很容易解决前面提到的问题，并且只需要编写一个 Dockerfile。

每条FROM指令可以使用不同的基础镜像，这样您可以选择性地将服务组件从一个阶段COPY到另一个阶段，在最终镜像中只保留需要的内容。

五、在一个容器中运行多个服务

在一个容器中运行多个服务，会导致编写的Dockerfile变得更加复杂和困难，并且，附加的一些依赖会让构建速度变慢，不利于调试和维护。

file

当然，如果是测试环境限制，可以在一个容器中运行多个服务，但是并不建议在生产环境这样做，不利于水平扩展单个应用。

六、在构建过程中使用数据卷

Dockerfile为我们提供数据卷的功能，在文件中，我们可以使用VOLUME命令来指定匿名数据卷，当然你可以在运行容器时指定，写在这里的目的是：为了防止运行时用户忘记指定数据卷映射，所以我们可以事先指定某些目录挂载为匿名卷，这样在运行时如果用户不指定挂载，其应用也可以正常运行。

VOLUME /data
RUN echo "构建过程中搞事情？!!!!" > /data/myfile.txt

CMD ["cat", "/data/myfile.txt"]

$ docker run volume-in-build
cat: can't open '/data/myfile.txt': No such file or directory

VOLUME /data
这里的 /data 目录就会在运行时自动挂载为匿名卷，任何向 /data 中写入的信息都不会记录进容器存储层，从而保证了容器存储层的无状态化。当然，运行时可以覆盖这个挂载设置：

docker run -d -v host/data:/data xxxx

七、纠结如何选择ADD或COPY命令

file

虽然功能类似，ADD和COPY实际上是不同的命令。COPY是这两种方法中最简单的一种，因为它只是将文件或目录从您的主机复制到镜像中。ADD也能做到这一点，但它还有一些更神奇的特性，比如提取tar文件或从远程url获取文件。一般情况下，建议使用ADD来代替COPY命令，由图所知，一行ADD能做完的事，COPY需要三行。但是从另一个角度来说，为了降低Dockerfile的复杂性，并防止一些意外的行为，也可以选择使用COPY命令。

八、多个命令的合并

上面对比过ADD命令和COPY的区别，由于每一行指令会构建一个镜像层，所以在编写Dockerfile的时候，可以一些命令串联成一行，中间通过&&运算符，一行结束位置加上 \ 符号，融合命令后，能够降低镜像的体积。案例如下：

RUN set -ex && \
    apk upgrade --no-cache && \
    apk add --no-cache bash tini libc6-compat && \
    mkdir -p /opt/spark && \
    mkdir -p /opt/spark/work-dir \
    touch /opt/spark/RELEASE && \
    rm /bin/sh && \
    ln -sv /bin/bash /bin/sh && \
    chgrp root /etc/passwd && chmod ug+rw /etc/passwd