安全架构
前言
Docker作为最重视安全的容器技术之一,在很多方面都提供了强安全性的默认配置
其中包括:容器root用户的Capability能力限制、Seccomp系统调用过滤、Apparmor的 MAC 访问控制、ulimit限制、pid-limits的支持 镜像签名机制等。
Docker利用Namespace实现了6项隔离,看似完整,实际上依旧没有完全隔离Linux资源 比如/proc 、/sys 、/dev/sd*等目录未完全隔离,SELinux、time、syslog等所有现有Namespace之外的信息都未隔离
其实Docker在安全性上也做了很多工作,大致包括下面几个方面(1)Linux内核 Capability 能力限制 Docker支持为容器设置Capabilities,指定开放给容器的权限。
这样在容器中的root用户比实际的root少很多权限。 Docker 在0.6版本以后支持将容器开启超级权限,使容器具有宿主机的root权限
(2)镜像签名机制
Docker 1.8版本以后提供了镜像签名机制来验证镜像的来源和完整性,这个功能需要手动开启,这样镜像制作者可以在push镜像前对镜像进行签名,在镜像pull的时候,Docker不会pull验证失败或者没有签名的镜像标签。(3)Apparmor的MAC访问控制
Apparmor可以将进程的权限与进程Capabilities能力联系在一起,实现对进程的强制性访问控制(MAC)。
在Docker中,我们可以使用Apparmor来限制用户只能执行某些特定命令、限制容器网络、文件读写权限等功能。(4)Seccomp系统调用过滤 使用Seccomp可以限制进程能够调用的系统调用(system call)的范围,
Docker提供的默认Seccomp配置文件已经禁用了大约44个超过300+的系统调用,满足大多数容器的系统调用诉求。(5)User Namespace隔离 Namespace为运行中进程提供了隔离,限制他们对系统资源的访问,而进程没有意识到这些限制,
为防止容器内的特权升级攻击的最佳方法是将容器的应用程序配置为作为非特权用户运行,
对于其进程必须作为容器中的root用户运行的容器,可以将此用户重新映射到Docker主机上权限较低的用户。
映射的用户被分配了一系列UID,这些UID在命名空间内作为从0到65536的普通UID运行,但在主机上没有特权。(6)SELinux SELinux主要提供了强制访问控制(MAC),即不再是仅依据进程的所有者与文件资源的rwx权限来决定有无访问能力。
能在攻击者实施了容器突破攻击后增加一层壁垒。Docker提供了对SELinux的支持。(7)pid-limits的支持 在说pid-limits前,需要说一下什么是fork炸弹(fork
bomb),fork炸弹就是以极快的速度创建大量进程, 并以此消耗系统分配予进程的可用空间使进程表饱和,从而使系统无法运行新程序。
说起进程数限制,大家可能都知道ulimit的nproc这个配置,nproc是存在坑的,与其他ulimit选项不同的是,
nproc是一个以用户为管理单位的设置选项,即他调节的是属于一个用户UID的最大进程数之和。
Docker从1.10以后,支持为容器指定–pids-limit 限制容器内进程数,使用其可以限制容器内进程数。(8)其他内核安全特性工具支持 在容器生态的周围,还有很多工具可以为容器安全性提供支持, 比如可以使用Docker bench audit tool(工具地址:https://github.com/docker/docker-bench-security)检查
1.Docker安全评估
Docker容器的安全性,很大程度上依赖于Linux系统自身,评估Docker的安全性时,主要考虑以下几个方面:
Linux内核的命名空间机制提供的容器隔离安全
Linux控制组机制对容器资源的控制能力安全。
Linux内核的能力机制所带来的操作权限安全
Docker程序(特别是服务端)本身的抗攻击性。
其他安全增强机制对容器安全性的影响。
(1)命名空间隔离的安全
当docker run启动一个容器时,Docker将在后台为容器创建一个独立的命名空间。命名空间提供了最基础也最直接的隔离。
与虚拟机方式相比,通过Linux namespace来实现的隔离不是那么彻底。
容器只是运行在宿主机上的一种特殊的进程,那么多个容器之间使用的就还是同一个宿主机的操作系统内核。
在 Linux 内核中,有很多资源和对象是不能被 Namespace 化的,比如:时间。
(2)控制组资源控制的安全
当docker run启动一个容器时,Docker将在后台为容器创建一个独立的控制组策略集合。
Linux Cgroups提供了很多有用的特性,确保各容器可以公平地分享主机的内存、CPU、磁盘IO等资源。
确保当发生在容器内的资源压力不会影响到本地主机系统和其他容器,它在防止拒绝服务攻击(DDoS)方面必不可少。
(3)内核能力机制
能力机制(Capability)是Linux内核一个强大的特性,可以提供细粒度的权限访问控制。
大部分情况下,容器并不需要“真正的”root权限,容器只需要少数的能力即可。
默认情况下,Docker采用“白名单”机制,禁用“必需功能”之外的其他权限。
(4)Docker服务端防护
使用Docker容器的核心是Docker服务端,确保只有可信的用户才能访问到Docker服务。
将容器的root用户映射到本地主机上的非root用户,减轻容器和主机之间因权限提升而引起的安全问题。
允许Docker 服务端在非root权限下运行,利用安全可靠的子进程来代理执行需要特权权限的操作。
这些子进程只允许在特定范围内进行操作。
(5)其他安全特性
在内核中启用GRSEC和PAX,这将增加更多的编译和运行时的安全检查;并且通过地址随机化机制来避免恶意探测等。
启用该特性不需要Docker进行任何配置。
(6)使用一些有增强安全特性的容器模板。
用户可以自定义更加严格的访问控制机制来定制安全策略。
在文件系统挂载到容器内部时,可以通过配置只读模式来避免容器内的应用通过文件系统破坏外部环境,
特别是一些系统运行状态相关的目录。
2.容器的资源控制
对容器实现资源控制我们使用的时由Linux提供的cgroups机制
(1)什么是cgroups
?
Cgroups 是 control groups 的缩写,是 Linux 内核提供的一种可以限制、记录、隔离进程组(process groups)所使用的物理资源(如:cpu,memory,IO等等)的机制。最初由 google 的工程师提出,后来被整合进 Linux 内核。
Cgroups 也是 LXC 为实现虚拟化所使用的资源管理手段,可以说没有cgroups就没有LXC。
(2)cgroups可以干什么
?
限制进程组可以使用的资源数量(Resource limiting )。
比如:memory子系统可以为进程组设定一个memory使用上限,一旦进程组使用的内存达到限额再申请内存,
就会出发OOM(out of memory)。
进程组的优先级控制(Prioritization )。比如:可以使用cpu子系统为某个进程组分配特定cpu share。
记录进程组使用的资源数量(Accounting )。比如:可以使用cpuacct子系统记录某个进程组使用的cpu时间
进程组隔离(Isolation)。比如:使用ns子系统可以使不同的进程组使用不同的namespace,以达到隔离的目的,
不同的进程组有各自的进程、网络、文件系统挂载空间。
进程组控制(Control)。比如:使用freezer子系统可以将进程组挂起和恢复
3.对容器cpu占用量限制
发现容器是一个进程
:
自动继承上级目录内容
:
安装cgroup,可提供cgexec命令
:
主要用到cpu.cfs_period_us和cpu.cfs_quota_us两个文件。
cpu.cfs_period_us:cpu分配的周期(微秒),默认为100000。
cpu.cfs_quota_us:表示该control group限制占用的时间(微秒),默认为-1,表示不限制。
如果设为20000,表示占用20000/100000=20%的CPU。
[root@server1 x1]# dd if=/dev/zero of=/dev/null & ##开启任务。打入后台,然后使用【top】命令查看
查看占用了百分之100
创建一个容器,并限制cpu的使用
:
4 对容器资源内存限制
容器可用内存包括两个部分:物理内存和swap交换分区。
[root@server1 memory]# cat memory.limit_in_bytes
9223372036854771712 数字太大,等同于没有做限制
docker run -it --memory 256M --memory-swap=256M ubuntu
–memory设置内存使用限额
–memory-swap设置swap交换分区限额
#在/sys/fs/cgroup/memory目录中创建的目录,自动继承/sys/fs/cgroup/memory目录中的内容。
创建该目录的目的是(1)为了演示容器的运行过程。因为一旦运行容器,就会在该目录下,生成一个docker目录,
docker目录中会生成容器ID对应的目录,目录中memory目录下的内容继承于/sys/fs/cgroup/memeory目录下的内容。
##(2)直接修改/sys/fs/cgroup/memory中的文件的内容,会报错。
[root@server1 memory]# echo 209715200 > memory.limit_in_bytes
-bash: echo: write error: Invalid argument
/sys/fs/cgroup/memory目录中的文件,不能用vim进行编辑,
利用vim进行编辑,无法进行保存退出(即使使用"wq!",也不能保存退出。)
发现多少都可
:
即使关联了达到限额也可,因为没有限制swap分区
:
限制swap分区
:
测试:再次截入300M失败
:
5.容器资源控制Block IO限制(限制写入速度)
docker run -it --device-write-bps /dev/sda:30MB ubuntu
–device-write-bps限制写设备的bps
目前的block IO限制只对direct IO有效(不能使用文件系统缓存)
(1)首先可以查看一下分区,确定写入的位置
(2)新建容器,进行测试
写入速度为每1MB,用时十秒
:
6.管控系统进程暂停与恢复
通过进程号得出发现活跃
:
尝试将其冻结
:
D表示冻结
:
解冻
:
7.docker安全加固
发现容器内虽限制成功,但看到的内存和容器外一样,没有做到完全隔离。
运行容器发现信息还是共享宿主机的
:
解决上述问题:通过lxcfs增强docker容器的隔离性和资源可见性
:
创建一个容器并只指定内存为256M且把相应内存挂载到容器内
:
但是没有超户的权利
:
设置特权级运行的容器
:
发现只有指定的是开启的,不指定就关闭状态
:
设置容器白名单:
只提供特定权力(控制网络)防止权力过大
: