KPTI:内核页表隔离的当前的发展 | Linux 中国

原创 2018年01月04日 00:00:00
640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1英特尔处理器曝出了一个严重的硬件设计漏洞,迫使包括 Linux、Windows 在内的主要操作系统和各大云计算服务商都忙着打补丁。因为漏洞信息没有解密,所以目前只能通过已发布的补丁反推这个漏洞。这里是一篇对该漏洞的技术分析文章。-- Jonathan Corbet


本文导航◈ 51 个补丁乃至更多27%◈ 细节55%编译自 | https://lwn.net/SubscriberLink/741878/eb6c9d3913d7cb2b/ 
 作者 | Jonathan Corbet
 译者 | qhwdw

英特尔处理器曝出了一个严重的硬件设计漏洞,迫使包括 Linux、Windows 在内的主要操作系统和各大云计算服务商都忙着打补丁[1]。因为漏洞信息没有解密,所以目前只能通过已发布的补丁反推这个漏洞[2]

这里是一篇对该漏洞的技术分析文章。

在十月底的时候,KAISER[3] 补丁集被披露了;它做了一项工作,将内核空间与用户空间使用的页表page tables进行了隔离,以解决 x86 处理器上向攻击者透露内核布局的安全漏洞。这些补丁是自它们被公布以来,这一星期中最值关注的事情,但是,它们似乎正在接近最终的状态。这应该是再次审视它们的合适机会。

这项工作被重命名为 “内核页表隔离kernel page-table isolation” (KPTI),但是目的是一样的:分割页表,将现在被用户空间和内核空间共享使用的这张表分成两套,内核空间和用户空间各自使用一个。这对内核的内存管理产生了根本性的变化,并且,这是本来人们期望先争论多年再做决定的,尤其是考虑到它的性能影响的时候。不过,KPTI 仍然处于快速发展的轨道上。一组预备补丁[4] 已被被合并到 4.15 - rc4 之后的主版本线上了 — 一般情况下仅重要的修复才被允许这样做 — 并且其余的似乎被确定进入 4.16 版的合并窗口中。许多内核开发者都在这项工作上投入了大量的时间,并且 Linus Torvalds 要求[5] 将这项工作回迁backport到长期稳定内核中。

也就是说,KPTI 已经在最后期限的压力下安全补丁的所有标记都已经就绪了。对于任何基于 ARM 的读者,在这里值的注意的是,在这项工作中有一个 为 arm64 的等效补丁集[6]

51 个补丁乃至更多

在这篇文章中,x86 补丁系列正处在 163 版本[7]。它包含 51 个补丁,因此,我们应该感谢那些没有公开的版本。最初的补丁集,由 Dave Hansen 发布,由 Thomas Gleixner、Peter Zijlstra、Andy Lutomirski、和 Hugh Dickins 根据许多其它人的建议,做了大量的修订。任何还存在的缺陷都不是由于没有足够多的有经验的开发人员过目所导致的。

在现代系统中,页表是以一个树形结构进行组织的,这样可以高效地存储稀疏内存映射和支持巨页特性;可以查看这篇 2005 年的文章[8] 了解更多细节以及它是怎么工作的示意图。在一个有四级页面表的系统上(目前的大多数大型系统都是这样),顶级是页面全局目录(PGD)。紧接着是页面上层目录(PUD)、页面中层目录(PMD)和页面表条目(PTE)。有五级页面表的系统是在 PGD 下面插入了一层(称为 P4D)。

页面故障解析通常遍历整个树去查找所需的 PTE,但是,巨页可以被更高层级的特定条目所表示。例如,一个 2MB 的内存块chunk既可以由 PMD 层级的一个单个的巨页条目表示,也可以由一个单页 PTE 条目的完整页面表示。

在当前的内核中,每个处理器有一个单个的 PGD;在 KPTI 系列补丁中所采取的第一步的其中一个措施是,去创建一个第二个 PGD。当内核运行时,原来的仍然在使用;它映射所有的地址空间。当处理器运行在用户空间时,(在打完该系列补丁之后)第二个被激活。它指向属于该进程的页面的相同目录层次,但是,描述内核空间(位于虚拟地址空间的顶端)的部分通常都不在这里。

页表条目包含权限描述位,它们记录了内存该如何被访问;不用说都知道,这些位是用来设置阻止用户空间访问内核页面的,即便是通过那些被映射到该地址空间的页面访问。不幸的是,一些硬件级的错误允许用户空间的攻击者去确定一个给定的内核空间地址是否被映射,而不管那个页面上映射的地址是否被允许访问。而那个信息可以被用于击败内核地址空间布局随机化,可以使一个本地的攻击者更易于得逞。在 KPTI 背后的核心思想是,切换到一个没有内核空间映射的 PGD,将会使基于这个漏洞的攻击失效,而到现在为止,我们还没有看到这些攻击。

细节

这个想法很简单,但是,就像经常发生的那样,有各种各样麻烦的细节使得这个简单的想法变成了一个由 51 个部分构成的补丁集。其中最初的一个是,如果处理器在用户模式运行时响应一个硬件中断,处理中断需要的内核代码将在地址空间中不存在。因此,必须有足够的内核代码映射在用户模式中,以能够切换回到内核 PGD,使剩余的代码也可用。对于 traps、非屏蔽中断、和系统调用,也存在一个相似的情况。这个代码很小而且可以与其它部分隔离,但是,在处理安全且有效地切换时,涉及到一些很复杂的细节。

另一个难题来自 x86 本地描述符表(LDT)的构成,它可以被用于去改变用户空间的内存布局。它可以使用鲜为人知的 modify_ldt()[9] 系统调用来做微调。例如,在 Linux 上早期的 POSIX 线程实现,使用了 LDT 去创建一个本地线程存储区域。在现在的 Linux 系统上,LDT 几乎不再使用了,但是,一些应用程序(比如,Wine)仍然需要它。当它被使用时,LDT 必须能够被用户空间和内核空间都可以访问到,但是,它必须一直处于内核空间中。KPTI 补丁集打乱内核附近的内存,在 PGD 级别上为 LDT 保留一个完全的条目;因此,vmalloc() 调用的可用空间收缩到仅有 12,800TB。那是一个非常巨大的 LDT 空间数,可以满足有很多 CPU 系统的需要。这种变化的其中一个结果是,LDT 的位置将是固定的,并且已知道用户空间 ——因此这将是个潜在的问题,由于覆写 LDT 的能力很容易被用来破坏整个系统。在这个系列的最终的补丁是映射为只读 LDT,以阻止此类攻击。

另一个潜在的安全缺陷是,如果内核可以一直被操纵直至返回用户空间,以至于不切换回经过过滤的 PGD。因为内核空间 PGD 也映射用户空间内存,这种疏忽可能在一段时间内不会被察觉到。对此问题的应对方法是将虚拟内存空间中用户空间的部分以非可执行的方式映射到内核的 PGD。只要用户空间(的程序)开始从一个错误的页面表开始执行,它将会立即崩溃。

最后,虽然所有已存在的 x86 处理器似乎都会受到这个信息泄露的漏洞影响,但是,以后的处理器可能不会受此影响。KPTI 有一个可测量的运行时成本,估计在 5%。有些用户也许不愿意为这些成本埋单,尤其是他们拿到了不存在这个问题的新处理器之后。为此将会有一个 nopti(内核)命令行选项来在启动的时候禁用这个机制。这个补丁系列也增加了一个新的“特性”标识(X86_BUG_CPU_INSECURE)去标识有漏洞的 CPU;它被设置在现在所有的 x86 CPU 上(LCTT 译注:AMD 表示不背这锅),但是在以后的硬件上可能没有。如果没有该特性标识,页面隔离将自动被关闭。

在 4.16 版的合并窗口打开之前剩下将近一个月。在这期间,针对一些新发现而不可避免的小毛病,KPTI 补丁集毫无疑问的将迎来一系列的小修订。一旦所有的事情都敲定了,看起来这些代码将会被合并同时以相对快的速度迁回到稳定版本的内核。显而易见的是,我们将会收到一个更慢,但是更安全的内核作为一个新年礼物。


via: https://lwn.net/SubscriberLink/741878/eb6c9d3913d7cb2b/

作者:Jonathan Corbet[10] 译者:qhwdw 校对:wxy

本文由 LCTT 原创编译,Linux中国 荣誉推出

LCTT 译者0?wx_fmt=jpegqhwdw ? ? ? ?共计翻译:38 篇贡献时间:65 天

推荐文章

< 左右滑动查看相关文章 >

0?wx_fmt=png0?wx_fmt=png0?wx_fmt=gif0?wx_fmt=gif

点击图片、输入文章 ID 或识别二维码直达

原文链接请访问“原文链接”获得可点击的文内链接、全尺寸原图和相关文章。



版权声明:本文为博主原创文章,未经博主允许不得转载。

Linux kernel 分析之二十:内存管理-内核中的页表映射总结

从线性地址到物理地址的转换,实际上是一种映射。所有进程的3~4G的线性地址实际上是映射到相同的物理地址的。这一点不多说了。为了方便起见,3~4G的线性地址与对应的物理地址基本上是呈线性关系的。即线性地...
  • vanquishedzxl
  • vanquishedzxl
  • 2015年07月23日 22:12
  • 1480

Linux内核页表

 Linux内核页表 一.    Linux地址空间 ARM的32位系统共支持4G的内存空间,其中0-3G为用户空间,3G-4G是内核空间, ARM采用2级页表,32位地址...
  • lieye_leaves
  • lieye_leaves
  • 2016年03月05日 18:00
  • 1937

进程页表与内核页表:页表的初始化

linux刚刚加电启动时,如何从实模式进入保护模式?启动分页机制的前提是什么?如何保证分页机制之前和之后通过实地址和虚拟地址都能访问到同一个物理地址呢?内核页表是如何进行初始化的?用户进程不能访问内核...
  • trochiluses
  • trochiluses
  • 2013年10月24日 20:10
  • 3636

关于进程页表内核部分和内核主页表的关系(Linux 2.6.11)

用户态页表共享内核主页表的PUD表和PMD表,所以可以看到内核态访问进程页表的时候(内核地址部分),PMD和PUD都是直接使用 /* * 这里在为pgd分配从slab中页面的时候会调用pgd_...
  • leoufung
  • leoufung
  • 2016年04月14日 15:18
  • 1013

内核页表成长记

内核页表成长记
  • RichardYSteven
  • RichardYSteven
  • 2017年03月06日 18:25
  • 371

内核页表图示

可能有错,更新中。。。 如果是 arm 256MB sdram at 3000 0000-3FFF FFFF 1.内核线性地址需要覆盖整个物理内存,这样才能达到他管理的目的,如某个进程页表映射...
  • songqqnew
  • songqqnew
  • 2011年09月18日 21:23
  • 1586

Linux内核页表初始化

Linux在内核启动过程中start_kernel->setup_arch会调用如下两个函数对页表进行初始化和建立。 static inline void prepare_page_table(vo...
  • glmwu
  • glmwu
  • 2014年02月23日 17:04
  • 1381

浅析linux内核内存管理之最终内核页表

浅析linux内核内存管理之最终内核页表                                    在系统初始化的时候进行了最终内核映射,主...
  • hsly_support
  • hsly_support
  • 2012年04月15日 21:40
  • 4786

关于内核页表和进程页表的一个问题

昨天回复了一封电子邮件,有朋友问个问题很有代表性,内核初始化时会将896M前的物理页面作一一映射,那么用户进程分配到896M前的页面建立用户映射时是否要清除内核的一一映射。 关于这个问题,我的前面的...
  • dog250
  • dog250
  • 2010年02月09日 21:13
  • 5750

linux内核页表

曾 几何时,我一直被迷惑着,我知道所有进程和所有内核线程共享内核页表,也就是在页全局目录的768项以上的目录项指向的页表,我一直以为在创建新的进程的 时候创建新进程的页全局目录的时候会连带的把内核的基...
  • u010154760
  • u010154760
  • 2015年04月08日 12:45
  • 274
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:KPTI:内核页表隔离的当前的发展 | Linux 中国
举报原因:
原因补充:

(最多只允许输入30个字)