Docker网络原理及Cgroup硬件资源占用控制

小蜜蜂~嗡嗡嗡~

已于 2024-04-30 08:38:16 修改

阅读量913

点赞数 21

分类专栏：运维文章标签： docker 容器运维

于 2024-04-24 22:22:02 首次发布

本文链接：https://blog.csdn.net/qq_57093716/article/details/138156775

版权

运维专栏收录该内容

73 篇文章 0 订阅

订阅专栏

2.2 设置CPU资源占用比（设置多个容器时才有效）

4. 对磁盘IO配额控制（blkio）的限制

5. 清除docker占用的磁盘空间

6. 生产解决问题

一. Docker 网络实现原理

1. 介绍

Docker 使用 Linux 桥接，在宿主机虚拟一个Docker容器网桥(docker0)，Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址，称为Container-IP，同时Docker网桥是每个容器的默认网关。因为在同一宿主机内的容器都接入同一个网桥，这样容器之间就能够通过容器的 Container-IP 直接通信。

Docker网桥是宿主机虚拟出来的，并不是真实存在的网络设备，外部网络是无法寻址到的，这也意味着外部网络无法直接通过 Container-IP 访问到容器。如果容器希望外部访问能够访问到，可以通过映射容器端口到宿主主机（端口映射），即 docker run 创建容器时候通过 -p 或 -P 参数来启用，访问容器的时候就通过[宿主机IP]:[容器端口]访问容器。

docker run -d --name test1 -P nginx					#随机映射端口（从32768开始）

docker run -d --name test2 -p 10000:80 nginx		#指定映射端口

#查看容器的输出和日志信息
docker logs 容器的ID/名称

2. docker 的网络模式

Host：容器将不会虚拟出自己的网卡，配置自己的IP等，而是使用宿主机的IP和端口。
Container：创建的容器不会创建自己的网卡，配置自己的IP，而是和一个指定的容器共享IP、端口范围。
None：该模式关闭了容器的网络功能。
Bridge：默认为该模式，此模式会为每一个容器分配、设置IP等，并将容器连接到一个docker0虚拟网桥，通过docker0网桥以及iptables nat 表配置与宿主机通信。
自定义网络

docker初始状态下有三种默认的网络模式，bridge（桥接），host（主机），none（无网络设置）

docker network ls	 或  docker network list			
#查看docker网络列表

#使用docker run创建Docker容器时，可以用 --net 或 --network 选项指定容器的网络模式

host模式：使用 --net=host 指定。
none模式：使用 --net=none 指定。
container模式：使用 --net=container:NAME_or_ID 指定。
bridge模式：使用 --net=bridge 指定，默认设置，可省略。

3. 网络模式详解

3.1 host模式

相当于 Vmware 中的桥接模式，与宿主机在同一个网络中，但没有独立IP地址。
Docker 使用了 Linux 的 Namespaces 技术来进行资源隔离，如PID Namespace隔离进程，Mount Namespace隔离文件系统，Network Namespace 隔离网络等。
一个 Network Namespace 提供了一份独立的网络环境，包括网卡、路由、iptable 规则等都与其他的Network Namespace隔离。一个Docker容器一般会分配一个独立的Network Namespace。但如果启动容器的时候使用host模式，那么这个容器将不会获得一个独立的Network Namespace，而是和宿主机共用一个Network Namespace。容器将不会虚拟出自己的网卡、配置自己的IP等，而是使用宿主机的IP和端口。

docker run -d --name test1 --network host nginx:latest

docker ps --filter  "network=host"

lsof -i:80

3.2 container模式

在理解了 host 模式后，这个模式也就好理解了。这个模式指定新创建的容器和已经存在的一个容器共享一个Network Namespace，而不是和宿主机共享。新创建的容器不会创建自己的网卡，配置自己的IP，而是和一个指定的容器共享IP、端口范围等。同样，两个容器除了网络方面，其他的如文件系统、进程列表等还是隔离的。两个容器的进程可以通过lo网卡设备通信。

#基于镜像nginx:latest 创建一个名为web1的容器
docker run -itd --name web1 nginx:latest /bin/bash
#查看容器web1的pid号
docker inspect -f '{{.State.Pid}}' web1
ls -l /proc/web1的pid/ns
 
#创建web2容器，使用container网络模式，和web1共享网络命名空间
docker run -itd --name web2 --net=container:web1 nginx:latest /bin/bash
#查看web2容器的pid
docker inspect -f '{{.State.Pid}}' web2
ls -l /proc/web2的pid/ns/
#可以看到web2和web1共享同一个网络命名空间

docker inspect web1的ID

docker inspect web2的ID   web2向web1用的IP网段

3.3 none 模式

使用none模式，Docker容器拥有自己的Network Namespace，但是，并不为Docker容器进行任何网络配置。也就是说，这个Docker容器没有网卡、IP、路由等信息。这种网络模式下容器只有lo回环网络，没有其他网卡。这种类型的网络没有办法联网，封闭的网络能很好的保证容器的安全性。

docker run -itd --name web3 --network=none nginx:latest  /bin/bash

3.4 bridge 模式

bridge 模式是 docker 的默认网络模式，不用 --net 参数，就是bridge模式。

相当于Vmware中的 nat 模式，容器使用独立network Namespace，并连接到 docker0 虚拟网卡。通过 docker0 网桥以及 iptables nat表配置与宿主机通信，此模式会为每一个容器分配Network Namespace、设置IP等，并将一个主机上的 Docker 容器连接到一个虚拟网桥上。

① 当Docker进程启动时，会在主机上创建一个名为 docker0 的虚拟网桥，此主机上启动的 Docker容器会连接到这个虚拟网桥上。虚拟网桥的工作方式和物理交换机类似，这样主机上的所有容器就通过交换机连在了一个二层网络中。

② 从 docker0 子网中分配一个IP给容器使用，并设置 docker0 的IP地址为容器的默认网关。在主机上创建一对虚拟网卡veth pair设备。veth设备总是成对出现的，它们组成了一个数据的通道，数据从一个设备进入，就会从另一个设备出来。因此，veth设备常用来连接两个网络设备。

③ Docker将 veth pair 设备的一端放在新创建的容器中，并命名为 eth0（容器的网卡），另一端放在主机中，以 * 这样类似的名字命名，并将这个网络设备加入到 docker0 网桥中。可以通过 brctl show 命令查看 veth

④ 使用 docker run -p 时，docker 实际是在 iptables 做了DNAT规则，实现端口转发功能。可以使用 iptables -t nat -vnL 查看。

3.5 自定义网络

直接使用bridge模式，是无法支持指定IP运行docker的，例如执行以下命令就会报错

创建自定义网络
#可以先自定义网络，再使用指定IP运行docker
docker network create --subnet=172.18.0.0/16 --opt "com.docker.network.bridge.name"="docker1"  mynetwork


#docker1 为执行 ifconfig -a 命令时，显示的网卡名，
如果不使用 --opt 参数指定此名称，那你在使用 ifconfig -a 命令查看网络信息时，
看到的是类似 br-110eb56a0b22 这样的名字，这显然不怎么好记。
#mynetwork 为执行 docker network list 命令时，显示的bridge网络模式名称。

#指定容器IP
docker run -itd --name web4 --net mynetwork --ip 172.18.0.50 nginx:latest /bin/bash

查看

3.6 网络总结

① host 容器使用宿主机的网络直接公开服务。这意味着如果你在容器中运行一个web服务，那么它就直接绑定到主机的网络接口上，而不是通过docker进行任何网络转发
简短:与宿主机共享网络名称空间

② container

这种模式允许容器去共享另一个容器网络命名空间，这说明两个容器可以相同的网络接口和IP地址，他们共享的是同一网络命名空间
多个容器之间共享一个net work namespace(命名空间)

③ none是简单的网络模式

此网络模式表示将容器拥有自己的网络命名空间，但不会进行任何网络配置，这实际给了用户完全的自主权来给自己配置容器的网络
自闭空间

④ bridge 默认的网络模式

每个新创建的容器都将该网络分配一个IP地址，此网络模式允许所有docker容器之间以及docker宿主机之间进行互相通信
默认模式通过VETH对连接容器docker0网桥网桥分配给容器IP 同时docker0作为局域网内容器的网关，最后与宿主机网卡进行通讯

⑤ user-defined network 自定义

docker 允许用户创建自己的定义的网络，用户可以定义的网络范围、子网、路由等参数，这种类型网络使用用户可以更好地对容器网络进行控住和隔离(生产业务需求:注:根据甲方指定或领导指定)
根据业务需求指定静态IP地址

生产经验

# daemon.json 配置介绍
 {
  "graph": "/data/docker",
  "storage-driver": "overlay2",
  "insecure-registries": ["registry.access.redhat.com", "quay.io"],
  "registry-mirrors": ["https://3u6mkfxb.mirror.aliyuncs.com"],
  "bip": "172.24.38.1/24",       #指定网桥的网段，这里不能写0，必须写1
  "exec-opts": ["native. cgroupdriver= systemd"],
  "live-restore": true
 }
 
 #配置项注意点:
 ● graph：该关键字未来将被弃用，可以采用"data-root" 替代。
 ● storage-driver：存储驱动，即分层文件系统。
 ● insecure-registries：不安全的docker registries, 即使用http协议推拉镜象。
 ● registry-mirrors:加速站点，一般可以使用阿里、网易云、docker中国 (https: //registry.docker-cn.com)的地址。
 ● bip：指定doccer bridge地址(不能以.0结尾)，生产中建议采用172.xx.yy.1/24,其中xx. yy为宿主机ip后四位，方便定位问题。
 ● 若启动失败，查看/var/log/message 日志排错。
 ● live-restore：启用实时还原。
 默认情况下，当Docker守护程序终止时，它将关闭正在运行的容器。从Docker Engine 1.12开始，您可以配置守护程序，以便在守护程序不可用时容器仍在运行。此功能称为实时还原。实时还原选项有助于减少由于守护程序崩溃，计划内的停机或升级而导致的容器停机时间。
 
 
 #使用配置文件/etc/docker/daemon.json (没有时新建该文件)
 vim /etc/docker/daemon.json
 {
 " insecure-registries": ["192.168.10.7:666"],
 "registry-mirrors": ["https://3u6mkfxb.mirror.aliyuncs.com"],
 "live-restore": true
 }

二. Docker容器的资源控制

1. cgroup 介绍

Docker 通过 Cgroup 来控制容器使用的资源配额，包括CPU、内存、磁盘三大方面，基本覆盖了常见的资源配额和使用量控制。Cgroup 是ControlGroups的缩写，是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、内存、磁盘，io等等)的机制，被LXC、docker等很多项目用于实现进程资源控制。Cgroup本身是提供将进程进行分组化管理的功能和接口的基础结构，I/O或内存的分配控制等具体的资源管理是通过该功能来实现的。

cgroups，是一个非常强大的linux内核工具，他不仅可以限制被 namespace 隔离起来的资源，还可以为资源设置权重、计算使用量、操控进程启停等等。所以 cgroups（Control groups）实现了对资源的配额和度量。

cgroups有四大功能：

资源限制：可以对任务使用的资源总额进行限制
优先级分配：通过分配的cpu时间片数量以及磁盘IO带宽大小，实际上相当于控制了任务运行优先级
资源统计：可以统计系统的资源使用量，如cpu时长，内存用量等
任务控制：cgroup可以对任务执行挂起、恢复等操作

2. CPU 资源控制

2.1 设置cpu使用率上限

Linux 通过CFS（Completely Fair Scheduler，完全公平调度器）来调度各个进程对CPU的使用。CFS默认的调度周期是100ms。
我们可以设置每个容器进程的调度周期，以及在这个周期内各个容器最多能使用多少 CPU 时间。

使用 --cpu-period 即可设置调度周期，使用 --cpu-quota 即可设置在每个周期内容器能使用的CPU时间。两者可以配合使用。
CFS 周期的有效范围是 1ms~1s，对应的 --cpu-period 的数值范围是 1000~1000000。周期100毫秒
而容器的 CPU 配额必须不小于 1ms，即 --cpu-quota 的值必须 >= 1000。

修改默认的容器时间分片上限规则

进行CPU压力测试

docker exec -it web5 /bin/bash

编辑脚本

#!/bin/bash
i=0
while true
do
let i++
done

第二种方式：

创建容器时指定容器的cpu资源占用量上限

设置50%的比例分配CPU使用时间上限
docker run -itd --name test6 --cpu-quota 50000 centos:7 /bin/bash

上一种方式

cd /sys/fs/cgroup/cpu/docker/3ed82355f81151c4568aaa6e7bc60ba6984201c119125360924bf7dfd6eaa42b/
echo 50000 > cpu.cfs_quota_us
docker exec -it 3ed82355f811 /bin/bash
./cpu.sh

top					#可以看到cpu占用率接近50%，cgroups对cpu的控制起了效果

2.2 设置CPU资源占用比（设置多个容器时才有效）

创建容器时可以使用选项 --cpu-shares 数值（该数值要为1024的倍数，1024代表一份，当个容器占用cpu的份额由自身分配的份数除于所有容器占用cpu的份数，就为该容器所占用cpu资源的百分比）

Docker 通过 --cpu-shares 指定 CPU 份额，默认值为1024，值为1024的倍数。
#创建两个容器为 c1 和 c2，若只有这两个容器，设置容器的权重，使得c1和c2的CPU资源占比为1/3和2/3。
docker run -itd --name test01 --cpu-shares 512 centos:7	
docker run -itd --name test02 --cpu-shares 1024 centos:7

分别进入容器，进行压力测试

#下载epel源
yum install -y epel-release
#下载压测工具
yum install -y stress

#进行四个线程压测
stress -c 4				#产生四个进程，每个进程都反复不停的计算随机数的平方根

#再开启一个终端查看测试结果
docker stats

#查看容器运行状态（动态更新）
docker stats

2.3 设置容器绑定指定的CPU

先分配虚拟机4个CPU核数

docker run -itd --name test03 --cpuset-cpus 1 centos:7 /bin/bash

进入容器，进行压力测试
yum install -y epel-release
yum install stress -y
stress -c 4

执行 top 命令再按 1 查看CPU使用情况。

总结：

cgroup(control groups) 是一个Linux内核的一个特性，用于限制记录和隔离进程组系统资源使用(cpu、内存、磁盘I/0等)
cpu-period 周期指的是 CPU 在给与当前管理控制容器的分配资源时，cpu 分配周期默认1s,此配置可以在运行时直接指定
cpu-quota(cPu 配额)它直接限制了CGROUP可以使用cpu的时间如果设置了CRP的100000us(微妙)，那么在每个100ms(毫秒)的是时间窗口CGROUP是最多只能使用 100000us(微妙)的 cpu 时间
cpuset-cpu指定容器仅能使用指定CPU，按照cpu的下标来表示

3. 对内存使用的限制

3.1 限制容器可以使用的最大内存

m （或--memory=）选项用于限制容器可以使用的最大内存 

docker run -itd --name test1 -m 512m centos:7 /bin/bash
docker  stats

3.2 限制容器可用的swap 大小

限制可用的 swap 大小，--memory-swap

强调一下， --memory-swap是必须要与 --memory（或-m）一起使用的。

正常情况下， --memory-swap 的值包含容器可用内存和可用swap 。

所以 -m 300m --memory-swap=1g 的含义为：容器可以使用300M 的物理内存，并且可以使用700M (1G - 300M)的swap。

如果 --memory-swap设置为0或者不设置，则容器可以使用的 swap 大小为 -m 值的两倍。
如果 --memory-swap 的值和 -m 值相同，则容器不能使用swap。
如果 --memory-swap 值为 -1，它表示容器程序使用的内存受限，而可以使用的swap空间使用不受限制（宿主机有多少swap 容器就可以使用多少）。

 #--memory-swap 的值包含容器可用内存和可用swap，减去-m的值才是可用swap的值。
 #表示容器可以使用512M的物理内存，并且可以使用512M的swap。因为1g减去512m的物理内存，剩余值才是可用swap。
 docker run -itd --name d2 -m 512m --memory-swap=1g centos:7 bash
 
 
 #--memoryswap值和 -m 的值相同，表示容器无法使用swap
 docker run -itd --name d3 -m 512m --memory-swap=512m centos:7 bash
 
 
 # --memory-swap 的值设置为0或者不设置，则容器可以使用的 swap 大小为 -m 值的两倍。
 docker run -itd --name d4 -m 512m centos:7 bash
 
 
 # --memory-swap 值为 -1，它表示容器程序使用的内存受限，但可以使用的swap空间使用不受限制（宿主机有多少swap 容器就可以使用多少）。
 docker run -itd --name d5 -m 512m --memory-swap=-1 centos:7 bash

4. 对磁盘IO配额控制（blkio）的限制

--device-read-bps：限制某个设备上的读速度bps（数据量），单位可以是kb、mb(M)或者gb。
例：docker run -itd --name test9 --device-read-bps /dev/sda:1M  centos:7 /bin/bash

--device-write-bps ： 限制某个设备上的写速度bps（数据量），单位可以是kb、mb(M)或者gb。
例：docker run -itd --name test10 --device-write-bps /dev/sda:1mb centos:7 /bin/bash

--device-read-iops ：限制读某个设备的iops（次数）
 
--device-write-iops ：限制写入某个设备的iops（次数）

测试：

#创建容器，并限制写速度
docker run -it --name test3 --device-write-bps /dev/sda:1MB centos:7 /bin/bash

#通过dd来验证写速度
dd if=/dev/zero of=test.out bs=1M count=10 oflag=direct				#添加oflag参数以规避掉文件系统cache

5. 清除docker占用的磁盘空间

#清理docker占用的磁盘空间
docker system prune -a			#可以用于清理磁盘，删除关闭的容器、无用的数据卷和网络

6. 生产解决问题

故障：由于docker容器故障导致大量日志集满，会造成磁盘空间满
解决方案
1、清楚日志

#!/bin/bash
logs=$ (find /var/lib/docker/containers/ -name *-json.log*)
for log in $logs
do
cat /dev/null > $log
done

该脚本是用Bash编写的，其目的是清空Docker容器在 /var/lib/docker/containers 目录下所有对应的JSON格式日志文件。

脚本逐行解释如下：


#!/bin/bash
此行为Shebang，指示操作系统使用 /bin/bash 这个Bash解释器来执行接下来的脚本内容。


logs=$(find /var/lib/docker/containers/ -name '*-json.log*')
这一行利用 find 命令查找 /var/lib/docker/containers/ 目录及其子目录下所有名称中包含 -json.log 字样的文件，并将找到的文件路径列表赋值给变量 logs。


for log in $logs
do
这里开始一个 for 循环，将之前通过 find 命令查找到的所有日志文件路径依次赋值给变量 log。


cat /dev/null > $log
在循环体内部，使用 cat /dev/null 命令并将输出重定向（>）到变量 log 表示的每个日志文件。/dev/null 是一个特殊的设备文件，它会吞噬所有写入的数据，因此这个命令的效果就是清空（覆盖）指定的日志文件内容。

总结来说，整个脚本的作用是：遍历Docker容器存放JSON格式日志的目录下的所有日志文件，并将这些文件的内容清空。




2、当日志占满之后如何处理
###设置docker日志文件数量及每个日志大小
 vim /etc/docker/daemon.json
{
"registry-mirrors": ["http://f613ce8f.m.daocloud.io"]，
"log-driver": "json-file",   #我的一日志格式
"log-opts": { "max-size" : "500m", "max-file" : "3"}   日志的参数最大500M   我最大容器中有三个日志文件 每个日志文件大小是500M
}

具体来说，这段配置做了两件事：

镜像加速： 设置了Docker Registry镜像源地址，将其指向Daocloud的镜像加速服务地址http://f613ce8f.m.daocloud.io。这样，在拉取Docker镜像时，会通过这个镜像源进行加速下载。

日志驱动及日志文件管理： 设定了Docker守护进程的日志驱动为json-file，这意味着Docker容器产生的日志将会被以JSON格式存储在磁盘上。

同时指定了日志选项（log-opts）：

"max-size" : "500m"：表示单个日志文件的最大大小为500兆字节（MB）。当日志文件达到500MB时，Docker会自动创建一个新的日志文件来继续记录日志。
"max-file" : "3"：表示最多同时保存3个这样的日志文件。也就是说，每当新的日志文件创建后，若已有3个日志文件，则最早的那一个日志文件会被删除以腾出空间。
总之，通过上述配置，您可以确保Docker容器产生的日志在满足一定条件时进行滚动和清理，避免日志占用过多磁盘空间。


修改完需要重新加载  systemctl daemon-reload

总结：

1.对网络模式的控制

 ########映射端口 -P为随机 -p为指定端口#################
docker run -itd  --name=为容器指定名称 -P 镜像名称
docker run -itd --name=为容器指定名称 -p 宿主机端口:容器端口 镜像名称
 
 
##############指定网络模式##########################
 #使用docker' run 创建Docker容器时，可以用--net 或--network 选项指定容器的网络模式
 ●host模式：使用 --net=host 指定。
 ●none模式：使用 --net=none 指定。
 ●container模式：使用--net=container:NAME/ID指定。
 ●bridge模式：使用 --net=bridge 指定，默认设置，可省略。
 
############自定义网络####################################
注意：只要自定义网络在创建容器时才能指定IP（必须是自定义网段中的IP）
#创建自定义网络
 docker network create --subnet=网段 --opt "com.docker.network.bridge.name"="网卡名" 自定义网络的名称
 
#使用自定义网络
 docker run -itd --name 容器名 --net 自定义网路名 --ip 自定义网路网段范围内的IP  centos:7 /bin/bash
 
#删除自定义网络
docker network rm 网络模式名称

2. 对cpu的限制参数

 docker run --cpu-period     #设置调度周期时间1000~1000000
            --cpu-quota      #设置容器进程的CPU占用时间，要与调度周期时间成比例
            --cpu-shares    #设置多个容器之间的CPU资源占用比
            --cpuset-cpus   #绑核（第一个CPU编号从0开始）

3. 对内存的限制

 -m 物理内存 [--memory-swap=总值]

4. 对磁盘IO的限制

 --device-read-bps 设备文件:1mb/1M     #限制读速度
 --device-write-bps 设备文件:1mb/1M    #限制写速度
 --device-read-iops                   #限制读次数
 --device-write-iops                  #限制写次数
 
 docker system prune -a    #清理磁盘，删除关闭的容器、无用的数据卷和网络。