一、 什么是 docker
环境配置的难题
软件开发最大的麻烦事之一,就是环境配置.用户计算机的环境都不相同,你怎么知道自家的软件,能在那些机器跑起来?
用户必须保证两件事:操作系统的设置,各种库和组件的安装.只有它们都正确, 软件才能运行.
举例来说,安装一个 Python 应用,计算机必须有 Python 引擎,还必须有各种依赖,可能还要配置环境变量.
如果某些老旧的模块与当前环境不兼容,那就麻烦了.
开发者常常会说:"它在我的机器可以跑了"(It works on my machine),言下之意就是,其他机器很可能跑不了.
环境配置如此麻烦,换一台机器,就要重来一次,旷日费时.
很多人想到,能不能从根本上解决问题,软件可以带环境安装? 也就是说,安装的时候,把原始环境一模一样地复制过来.
虚拟机
虚拟机(virtual machine)就是带环境安装的一种解决方案.
它可以在一种操作系统里面运行另一种操作系统,比如在 Windows 系统里面运行 Linux 系统.
应用程序对此毫无感知,因为虚拟机看上去跟真实系统一模一样,
而对于底层系统来说,虚拟机就是一个普通文件,不需要了就删掉,对其他部分毫无影响.
虽然用户可以通过虚拟机还原软件的原始环境.但是,这个方案有几个缺点: (1)资源占用多
虚拟机会独占一部分系统资源,它运行的时候,其他程序就不能使用这些资源了. 哪怕虚拟机里面的应用程序真正使用的内存只有 1MB,虚拟机依然需要几百 MB 的内存才能运行.
(2)冗余步骤多
虚拟机是完整的操作系统,一些系统级别的操作步骤,往往无法跳过,比如用户登录等, 操作繁琐.
(3)启动慢
启动操作系统需要多久,启动虚拟机就需要多久. 可能要等几分钟,应用程序才能真正运行.
Docker 出现的背景
虽然虚拟机解决了带环境安装的问题, 不过在公司日常的研发和项目场景中, 以下情况仍普遍存在:
A. 个人开发环境为了做大数据相关项目,需要安装一套大数据集群,常见的做法是在自己电脑里搭建 3 台与大数据版本对应的虚拟机,把大数据集群装起来后,考虑到以后很有可能还要使用一个干净的大数据集群,为了避免以后重复安装环境,通常会对整套大数据集群做一个备份,这样电脑里就有 6 个虚拟机镜像了。另外,后面在学习其他技术时,比如学习 Ambari 大数据集群,那么为了不破坏已有的虚拟机环境,又要重新搭建 3 台虚拟机,本机磁盘很快被一大堆的虚拟机镜像占满。
B. 公司内部开发环境公司里往往会以小团队的方式来做项目,一般由运维部门从他们管理的服务器资源中分配出虚拟机供团队内部开发测试使用。
比如做一个与机器学习相关的项目:
• 小明在运维部门分配的虚拟机上搭建了一套 Ambari 集群,拿来跑大数据相关业务
• 小刚用 python3 写了一个机器学习算法,放到虚拟机上运行发现虚拟机里是python2,算法不兼容,于是把虚拟机里的 python 版本升级了,算法跑通了, 但 Ambari 用到 python 的部分功能可能就报错了
• 小李开发了应用,放到虚拟机上启动 tomcat,发现虚拟机里的是 OpenJDKÿ