Docker背后的内核知识
当谈论docker时,常常会聊到docker的实现方式。很多开发者都知道,docker容器本质上是宿主机的进程,Docker通过namespace实现了资源隔离,通过cgroups实现了资源限制,通过写时复制机制(copy-on-write)实现了高效的文件操作。当进一步深入namespace和cgroups等技术细节时,大部分开发者都会感到茫然无措。尤其是接下来解释libcontainer的工作原理时,我们会接触大量容器核心知识。所以在这里,希望先带领大家走进linux内核,了解namespa和cgroups的技术细节。
namespace资源隔离
linux内核提拱了6种namespace隔离的系统调用,如下图所示,但是真正的容器还需要处理许多其他工作。
namespace | 系统调用参数 | 隔离内容 |
---|---|---|
UTS | CLONE_NEWUTS | 主机名或域名 |
IPC | CLONE_NEWIPC | 信号量、消息队列和共享内存 |
PID | CLONE_NEWPID | 进程编号 |
Network | CLONE_NEWNET | 网络设备、网络战、端口等 |
Mount | CLONE_NEWNS | 挂载点(文件系统) |
User | CLONE_NEWUSER | 用户组和用户组 |
实际上,linux内核实现namespace的主要目的,就是为了实现轻量级虚拟化技术服务。在同一个namespace下的进程合一感知彼此的变化,而对外界的进程一无所知。这样就可以让容器中的进程产生错觉,仿佛自己置身一个独立的系统环境中,以达到隔离的目的。
需要注意的是,本文所讨论的namespace实现针对的是linux内核3.8及以后版本。
1.进行namespace API操作的4种方式
namespace的API包括clone()、setns()以及unshare(),还有/proc下的本分文件。为了确定隔离的到底是哪6项namespace,在使用这些API时需要指定一下6个参数中的一个或多个,通过|(位或)操作实现。这6个参数分别是CLONE_NEWUTS、CLONE_NEWIPC、CLONE_NEWPID、CLONE_NEWNET、CLONE_NEWNS、CLONE_NEWUSER。
- 通过clone()在创建新进程的同时创建namespace
使用clone()来创建一个独立的namespace,是最常见的用法,也是docker使用namespace最基本用法。
int clone(int (*child_func)(void *),void *child_stack,int flags,void *arg);
clone()实际上是l