Namespace

Namespace

用来做容器的隔离,有了 namespace,在docker container里头看来,就是一个完整的linux的世界。在host看来,container里的进程,就是一个普通的host进程,namespace提供这种pid的映射和隔离效果,host承载着container,就好比一个世外桃源。

namespace 包括:pid namespacepid namespaceipc namespacemnt namespaceutsnamespaceuser namespace

例如我们运行一个容器


查看容器的进程号


可以看到该容器的 pid6003,在宿主的/proc目录下存在6003进程的目录

通过 kill可以结束该容器



查看/proc/[pid]/ns  文件

3.8版本的内核开始,用户就可以在/proc/[pid]/ns文件下看到指向不同namespace号的文件,效果如下所示,形如[4026531839]者即为namespace号。

我们运行一个容器并获取容器的 pid

获取容器的 pid


#ls -l /proc/pid/ns <<pid表示应用容器的PID


如果两个进程指向的 namespace编号相同,就说明他们在同一个namespace下,否则则在不同namespace里面。

例如我们再创建一个容器,网络模式为 container(使用--net=container:NAMEorID指定)


从上面可以看出两个容器的net namespace编号相同,说明他们在同一个net namespace下,共用一个网络。


Docker使用了pidnetworkmntipcuts等命名空间来隔离进程、网络、文件系统等资源。注意,由于Linux并不是namespace了所有东西(如cgroups/sysSELinux/dev/sd*内核模块等),仅靠这几个 namespace 是无法实现像KVM那样的完全资源隔离的。

pid namespacePID namespace隔离非常实用,它对进程PID重新标号,即两个不同namespace下的进程可以有同一个 PID,实现进程隔离,容器只能看到自己的进程,并且每个容器都有一个 pid1的父进程,kill掉该进程容器内的所有进程都会停止;

net namespace:实现网络隔离,每个容器都可以设置自己的interfaceroutersiptables等;docker默认采用veth的方式将container中的虚拟网卡同host上的一个docker bridge: docker0连接在一起;

ipc namespacecontainer中进程交互还是采用linux常见的进程间交互方法(interprocesscommunication - IPC),容器中进程间通信采用的方法包括常见的信号量、消息队列和共享内存。然而与虚拟机不同的是,容器内部进程间通信对宿主机来说,实际上是具有相同 PIDnamespace 中的进程间通信,在同一个IPC namespace下的进程彼此可见,而与其他的IPCnamespace下的进程则互相不可见。

mnt namespace:通过隔离文件系统挂载点对隔离文件系统提供支持,不同mnt namespace中的文件结构发生变化也互不影响。你可以通过/proc/[pid]/mounts查看到所有挂载在当前namespace中的文件系统,还可以通过/proc/[pid]/mountstats看到mount namespace中文件设备的统计信息,包括挂载文件的名字、文件系统类型、挂载位置等等


注:6656 是容器的进程号

uts namspaceUTS namespace 提供了主机名和域名的隔离,这样每个容器就可以拥有了独立的主机名和域名,在网络上可以被视作一个独立的节点而非宿主机上的一个进程。user namespace:每个 container 可以有不同的 user group id, 也就是说可以在 container内部用 container 内部的用户执行程序而非 Host 上的用户。

对于容器所依赖的内核文件系统(这些都是 non-namespaced),为了保证安全性,docker 其限制为只读的,例如进入一个容器执行 mount 命令:

mount



Cgroups

在前面了解了 Docker 背后使用的资源隔离技术 namespace,通过系统调用构建一个相对隔离的 shell 环境,也可以称之为一个简单的“容器”。下面我们则要开始讲解另一个强大的内核工具——cgroups。他不仅可以限制被 namespace 隔离起来的资源,还可以为资源设置权重、计算使用量、操控进程启停等等。所以 cgroupsControl groups)实现了对资源的配额和度量

cgroups 是什么?

cgroupsControl Groups)最初叫 Process Container,由 Google 工程师(Paul Menage RohitSeth)于 2006 年提出,后来因为 Container 有多重含义容易引起误解,就在 2007 年更名为Control Groups,并被整合进 Linux 内核。顾名思义就是把进程放到一个组里面统一加以控制groups 的作用

通俗的来说,cgroups 可以限制、记录、隔离进程组所使用的物理资源(包括:CPUmemoryIO 等),为容器实现虚拟化提供了基本保证,是构建 Docker 等一系列虚拟化管理工具的基石。

Cgroups 提供了以下四大功能。

1)资源限制(Resource Limitation):cgroups 可以对进程组使用的资源总额进行限制。如设

2)定应用运行时使用内存的上限,一旦超过这个配额就发出 OOMOut of Memory)。优先级分配(Prioritization):通过分配的 CPU 时间片数量及硬盘 IO 带宽大小,实际上就相当于控制了进程运行的优先级。

3)资源统计(Accounting): cgroups 可以统计系统的资源使用量,如 CPU 使用时长、内存用量等等,这个功能非常适用于计费。

4)进程控制(Control):cgroups 可以对进程组执行挂起、恢复等操作。

下面就介绍 cgroup 如何做到内存,cpu io 速率的隔离本文用脚本运行示例进程,来验证 Cgroups 关于 cpu、内存、io 这三部分的隔离效果。

测试机器环境


启动 Cgroups

一般会没有可以yum下载一个libcgroup-tools就可以了


执行 mount 命令查看 cgroup 的挂载点


从上图可以看到 cgroup 挂载在/sys/fs/cgroup 目录

groups 可以限制 blkiocpucpuacctcpusetdevicesfreezermemorynet_clsns 等系统的资源,以下是主要子系统的说明:

blkio 这个子系统设置限制每个块设备的输入输出控制。例如:磁盘,光盘以及 usb 等等。

cpu 这个子系统使用调度程序为 cgroup 任务提供 cpu 的访问。

cpuacct 产生 cgroup 任务的 cpu 资源报告。

cpuset 如果是多核心的 cpu,这个子系统会为 cgroup 任务分配单独的 cpu 和内存。

devices 允许或拒绝 cgroup 任务对设备的访问。

freezer 暂停和恢复 cgroup 任务。

memory 设置每个 cgroup 的内存限制以及产生内存资源报告。

net_cls 标记每个网络包以供 cgroup 方便使用,它通过使用等级识别符(classid)标记网络数

据包,从而允许 Linux 流量控制程序(TCTraffic Controller)识别从具体 cgroup 中生成的数据包。

ns:命名空间子系统

cgroups 管理进程 cpu 资源

我们先看一个限制 cpu 资源的例子:

跑一个耗 cpu 的脚本

运行一个容器,在容器内创建脚本并运行脚本,脚本内容:


将容器切换到后台运行

在宿主机上 top 可以看到这个脚本基本占了 90%多的 cpu 资源


下面用 cgroups 控制这个进程的 cpu 资源

对于 centos7 来说,通过 systemd-cgls 来查看系统 cgroups tree

#systemd-cgls


注:7281 就是我们所运行的容器 pid


cpu.cfs_quota_us 设为 50000,相对于 cpu.cfs_period_us 100000 50%


进入容器,再次执行脚本,打开宿主机的另一个终端执行 top 命令

然后 top 的实时统计数据如下,cpu 占用率将近 50%,看来 cgroups 关于 cpu 的控制起了效果



CPU 资源控制

CPU 资源的控制也有两种策略,一种是完全公平调度 (CFSCompletely Fair Scheduler策略,提供了限额和按比例分配两种方式进行资源控制;另一种是实时调度(Real-TimeScheduler)策略,针对实时进程按周期分配固定的运行时间。配置时间都以微秒(µs)为单位,文件名中用 us 表示。

CFS调度策略下的配置

按权重比例设定 CPU 的分配

docker 提供了–cpu-shares 参数,在创建容器时指定容器所使用的 CPU 份额值。例如:使用命令 docker run -tid cpu-shares 100 镜像,创建容器,则最终生成的 cgroup cpu 份额配置可以下面的文件中找到:

# cat /sys/fs/cgroup/cpu/system.slice/docker-<容器的完整长 ID>/cpu.shares


cpu-shares 的值不能保证可以获得 1 vcpu 或者多少 GHz 的 

CPU 资源,仅仅只是一个加权值。

该加权值是一个整数(必须大于等于 2)表示相对权重,最后除以权重总和算出相对比例,按比例分配 CPU 时间。

默认情况下,每个 docker 容器的 cpu 份额都是 1024。单独一个容器的份额是没有意义的,只有在同时运行多个容器时,容器的 cpu 加权的效果才能体现出来。例如,两个容器 ABcpu 份额分别为 1000 500,在 cpu 进行时间片分配的时候,容器 A 比容器 B 多一倍的机会获得 CPU 的时间片。如果容器 A 的进程一直是空闲的,那么容器 B 是可以获取比容器A 更多的 CPU 时间片的。极端情况下,比如说主机上只运行了一个容器,即使它的 cpu 份额只有 50,它也可以独占整个主机的 cpu 资源。cgroups 只在容器分配的资源紧缺时,也就是说在需要对容器使用的资源进行限制时,才会生效。因此,无法单纯根据某个容器的 cpu 份额来确定有多少 cpu 资源分配给它,资源分配结果取决于同时运行的其他容器的 cpu 分配和容器中进程运行情况。

cpu-shares 演示案例:

先删除 docker 主机上运行的容器


Docker 通过--cpu-shares 指定 CPU 份额

运行一个容器指定 cpu 份额为 1024

图中使用的镜像是专门的容器压力测试镜像


注:

--cpu-shares 指定 CPU 份额,默认就是 1024

--cpuset-cpus 可以绑定 CPU。例如,指定容器在--cpuset-cpus 0,1 --cpuset-cpus 0-3

--cpu stress 命令的选项表示产生 n 个进程 每个进程都反复不停的计算随机数的平方根

stress 命令是 linux 下的一个压力测试工具。

docker 宿主机上打开一个 terminal 执行 top


然后再启动一个容器, --cpu-shares 512


查看 top 的现实结果


可以看到 container CPU 占比为 1024/(1024+512)=2/3container1 CPU 占比为512/(1024+512)=1/3

container cpu.shares 改为 512

#echo 512> /sys/fs/cgroup/cpu/system.slice/docker-<容器的完整长 ID>/cpu.shares


可以看到两个容器的 CPU 占比趋于平均


设定 CPU 使用周期使用时间上限

cgroups 里,可以用 cpu.cfs_period_us cpu.cfs_quota_us 来限制该组中的所有进程在单位时间里可以使用的 cpu 时间。cpu.cfs_period_us 就是时间周期,默认为 100000,即百毫秒。cpu.cfs_quota_us 就是在这期间内可使用的 cpu 时间,默认 -1,即无限制。

 cpu.cfs_period_us:设定时间周期(单位为微秒(μs)),必须与 cfs_quota_us 配合使用。cpu.cfs_quota_us :设定周期内最多可使用的时间(单位为微秒(μs))。这里的配置指 task对单个 cpu 的使用上限。

 举个例子,如果容器进程需要每 1 秒使用单个 CPU 0.2 秒时间,可以将 cpu-period 设置为1000000(即 1 秒),cpu-quota 设置为 2000000.2 秒)。当然,在多核情况下,若 cfs_quota_us cfs_period_us 的两倍,就表示在两个核上完全使用 CPU,例如如果允许容器进程需要完全占用两个 CPU,则可以将 cpu-period 设置为100000(即 0.1 秒),cpu-quota 设置为 2000000.2 秒)。

使用示例:
使用命令 docker run 创建容器


从上图可以看到基本占了 100%cpu 资源

则最终生成的 cgroup cpu 周期配置可以下面的目录中找到:

/sys/fs/cgroup/cpu/system.slice/docker-<容器的完整长 ID>/


修改容器的 cpu.cfs_period_us cpu.cfs_quota_us


执行 top 查看 cpu 资源


从上图可以看到基本占了 50%cpu 资源

RT 调度策略下的配置 实时调度策略与公平调度策略中的按周期分配时间的方法类似,也是

在周期内分配一个固定的运行时间。

cpu.rt_period_us :设定周期时间。

cpu.rt_runtime_us:设定周期中的运行时间。


cpuset - CPU 绑定
对多核 CPU 的服务器, docker 还可以控制容器运行限定使用哪些 cpu 内核和内存节点,即使用 –cpuset-cpus –cpuset-mems 参数。 对具有 NUMA 拓扑(具有多 CPU 多内存节点) 的服务器尤其有用,可以对需要高性能计算的容器进行性能最优的配置。如果服务器只有一个内存节点, –cpuset-mems 的配置基本上不会有明显效果

注:

现在的机器上都是有多个 CPU 和多个内存块的。以前我们都是将内存块看成是一大块内存,所有 CPU 到这个共享内存的访问消息是一样的。但是随着处理器的增加,共享内存可能会导致内存访问冲突越来越厉害,且如果内存访问达到瓶颈的时候,性能就不能随之增加。NUMA( Non-Uniform Memory Access)就是这样的环境下引入的一个模型。比如一台机器是有 2 个处理器,有 4 个内存块。我们将 1 个处理器和两个内存块合起来,称为一个 NUMAnode,这样这个机器就会有两个 NUMA node。在物理分布上, NUMA node 的处理器和内存块的物理距离更小,因此访问也更快。比如这台机器会分左右两个处理器( cpu1, cpu2),在每个处理器两边放两个内存块(memory1.1, memory1.2, memory2.1,memory2.2),这样NUMA node1 的 cpu1 访问 memory1.1 和 memory1.2 就比访问 memory2.1 和 memory2.2更快。所以使用 NUMA 的模式如果能尽量保证本 node 内的 CPU 只访问本 node 内的内存块,那这样的效率就是最高的。

使用示例:


表示创建的容器只能用 01 2 这三个内核。最终生成的 cgroup cpu 内核配置如下:


cpuset.cpus:在这个文件中填写 cgroup 可使用的 CPU 编号,如 0-2,16 代表 0 12 16

4 CPU

cpuset.mems:与 CPU 类似,表示 cgroup 可使用的 memory node,格式同上

通过 docker exec <容器 ID> taskset -c -p 1(容器内部第一个进程编号一般为 1),可以看到容器中进程与 CPU 内核的绑定关系,可以认为达到了绑定 CPU 内核的目的。

总结:

CPU 配额控制参数的混合使用

当上面这些参数中时, cpu-shares 控制只发生在容器竞争同一个内核的时间片时,如果通过cpuset-cpus 指定容器 A 使用内核 0,容器 B 只是用内核 1,在主机上只有这两个容器使用对应内核的情况,它们各自占用全部的内核资源, cpu-shares 没有明显效果。

cpu-periodcpu-quota 这两个参数一般联合使用,在单核情况或者通过 cpuset-cpus 强制容器使用一个 cpu 内核的情况下,即使 cpu-quota 超过 cpu-period,也不会使容器使用更多的CPU 资源。

cpuset-cpuscpuset-mems 只在多核、多内存节点上的服务器上有效,并且必须与实际的物理配置匹配,否则也无法达到资源控制的目的。

在系统具有多个 CPU 内核的情况下,需要通过 cpuset-cpus 为容器 CPU 内核才能比较方便地进行测试。


内存配额控制

CPU 控制一样, docker 也提供了若干参数来控制容器的内存使用配额,可以控制容器的swap 大小、可用内存大小等各种内存方面的控制。主要有以下参数:

Docker 提供参数-m, --memory=""限制容器的内存使用量, 如果不设置-m,则默认容器内存是不设限的,容器可以使用主机上的所有空闲内存

内存配额控制使用示例

设置容器的内存上限,参考命令如下所示

#docker run -dit --memory 128m 镜像

默认情况下, 除了memory 指定的内存大小以外, docker 还为容器分配了同样大小的 swap分区,也就是说,上面的命令创建出的容器实际上最多可以使用 256MB 内存,而不是 128MB内存。 如果需要自定义 swap 分区大小, 则可以通过联合使用 –memoryswap 参数来实现控制。


可以发现,使用 256MB 进行压力测试时,由于超过了内存上限( 128MB 内存+128MB swap),进程被 OOM(out of memory)杀死。

使用 250MB 进行压力测试时,进程可以正常运行。


通过 docker stats 可以查看到容器的内存已经满负载了。

#docker stats test2


对上面的命令创建的容器,可以查看到在 cgroups 的配置文件中,查看到容器的内存大小为128MB (128×1024×1024=134217728B), 内 存 和 swap 加 起 来 大 小 为 256MB(256×1024×1024=268435456B)

#cat /sys/fs/cgroup/memory/system.slice/docker-<容器的完整 ID>/memory.limit_in_bytes

134217728

#cat /sys/fs/cgroup/memory/system.slice/docker-<容器的完整ID>/memory.memsw.limit_in_bytes

268435456


磁盘 IO 配额控制

主要包括以下参数:

--device-read-bps:限制此设备上的读速度( bytes per second),单位可以是 kb mb 或者 gb
--device-read-iops:通过每秒读 IO 次数来限制指定设备的读速度。
--device-write-bps :限制此设备上的写速度( bytes per second),单位可以是 kb mb 或者 gb
--device-write-iops:通过每秒写 IO 次数来限制指定设备的写速度。
--blkio-weight:容器默认磁盘 IO 的加权值,有效值范围为 10-1000
--blkio-weight-device: 针对特定设备的 IO 加权控制。其格式为 DEVICE_NAME:WEIGHT

磁盘 IO 配额控制示例

blkio-weight

使用下面的命令创建两个blkio-weight 值不同的容器:
在容器中同时执行下面的 dd 命令,进行测试



注: oflag=direct 规避掉文件系统的 cache,把写请求直接封装成 io 指令发到硬盘


3Chroot

如何在 container 里头,看到的文件系统,就是一个完整的 linux 系统,有/etc/lib 等,通过 chroot 实现

4 Veth
container 里,执行 ifconfig 可以看到 eth0 的网卡,如何通信呢?其实是在 host 上虚拟了一
张网卡出来( veth73f7),跟 container 里的网卡做了桥接,所有从 container 出来的流量都要
host 的虚拟网卡,进 container 的流量也是如此。

5 Union FS
对于这种叠加的文件系统,有一个很好的实现是 AUFS,这个可以做到以文件为粒度的
copy-on-write,为海量的 container 的瞬间启动。

6 Iptables, netfilter
主要用来做 ip 数据包的过滤,比如可以做 container 之间无法通信, container 可以无法访问
host 的网络,但是可以通过 host 的网卡访问外网等这样的网络策略

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值