不可访问的设备内存2017

Kyph

已于 2023-07-11 16:30:32 修改

阅读量150

点赞数

文章标签： linux

于 2023-07-11 16:28:36 首次发布

本文链接：https://blog.csdn.net/lsshao/article/details/131663363

版权

原文网址：https://lwn.net/Articles/717614/

原文题目：Unaddressable device memory

原文作者：Jake Edge

原文时间：2017年3月22日

不可访问的设备内存

在2017年Linux存储、文件系统和内存管理会议的第一天早上全体大会上，Glisse发起了一场关于“CPU不可访问的、设备上的内存”的讨论，在GPUs和FPGA的系统中常常会配置这种设备内存。在设备上确实存在这样的内存；与系统主存相比，设备访问设备内存的延迟会更短。Glisse开发了异构内存管理HMM补丁，其设计目标就是方便应用程序开发者能透明地使用这些设备内存。

在GPUs和FPGAs的板卡上有大量这样的设备内存，容量通常为8G~64GB；当前这种设备内存一般是通过mmap()映射设备文件的方式来访问。这种访问方式在OpenGL等图像处理和第一版OpenCL异构计算框架中获得很好的应用，但这种方式会导致“地址空间”碎片化。设备既能访问系统主存也能访问自己本地的设备内存；因为这种设备内存不支持一致性协议和原子操作，所以CPU不能真正使用设备内存。

运行在这些设备上的程序要用到malloc()为数据结构分配的系统内存；GPU和FPGA在访问这些数据结构之前，对应的系统内存单元还需要被钉住（PINed），这样一来，这些数据结构的物理内存单元在被设备访问时就不会被换出。另一种不钉住系统内存的使用方式是，将这些数据结构拷贝到设备内存中，但这种方式比较缓慢而且容易出错。

Glisse说，需要一种共享地址空间机制，实现系统主存可以透明地迁移到设备内存上【这句话有待进一步理解】。

共享地址空间机制逐步成为业界标准；Windows操作系统实现了这种机制，C++标准规定在使用设备内存时也需要用这种机制。和CUDA并行编程框架一样，OpenCL2.0及更高版本也需要这种机制。一旦实现了内存的透明迁移，程序员在编码时就不要考虑代码究竟是在GPU上运行还是在CPU上运行。当前GPU内存带宽为1TB/s，而PCIe总线带宽为32GB/s，四通道DDR系统主存的带宽为80GB/s。GPU能以更快的速度访问数据，而从内存访问来看，CPU端反而成为了瓶颈。

虽然说存在硬件解决方案的可能性，但是对于普通硬件提供的设备内存并不是常规内存【regular memory：同时支持设备端和CPU端的一致性和原子操作】。因此Glisse说需要软件解决方案。

HMM采用了ZONE_DEVICE分配区域类型，但与以前在全体会议上说的使用方式上有些不同。设备内存虽被标注为ZONE_DEVICE，但同时允许系统主存的数据能往上迁移。从CPU角度来看，这类似于内存被换页到磁盘；如果CPU端需要访问这些内存，就触发页故障，又将数据从设备内存迁移回到系统主存。

Glisse认为共享地址空间机制要解决两个问题。首先要保护系统主存页不能被读或写。然后将页内容复制到设备端，所有来自CPU的读写都会被异常捕获（应该是触发CPU页故障异常）。

有人问道迁移的数据量规模，并说一次做4KB的迁移没有什么意义。Glisse回应说，典型场景至少是几百万字节，通常会迁移10GB数据给到设备内存。GPU对这些数据要进行长时间的计算处理，然后将计算结果迁移回来。在结果返回之前，CPU一般不会访问这些数据。这要视工作负载具体情况而定，要避免一次迁移4KB页大小，这点很重要。

在CPU内存和设备内存之间还可能存在页来来回回迁移的情况【文中称这种情况为pages ping-ponging】，这种情况也要避免。Glisse意识到这个问题，但是他认为驱动程序只要运行时间足够长就可以跟踪这类访问，在这种情况下如果发生CPU访问，页就不会被迁移到设备端。Mel Gorman提醒说，如果发生页来回迁移的情况，这可能是应用程序的BUG。

Dave Hansen指出，malloc()分配的内存数据可能面临这种情况，一方面被要求和其他数据一起迁移，另一方面其他数据本身还不能被迁移。Glisse承认这一点，但是也提到，因为设备可以直接访问系统主存，所以可以允许某些页绝不会迁移到设备上，这也不是什么大问题。还有一些分配工具有助于避免这个问题。

将将数据拷贝到设备内存还存一个问题就是，数据存在两份【One problem with mirroring data on the device is that the memory is duplicated】。另一个方法是，将内存数据完全迁移到设备端的ZONE_DEVICE页上，这样CPU根本就访问不到。CPU对设备端ZONE_DEVICE页数据进行读写就会触发回迁。这要求能捕获所有可能的读写，包括系统调用或者直接IO。

AI Viro指出系统调用或直接IO不应该触发回迁操作；相反，应该在调用get_user()和put_user()这两个函数被调用时触发回迁操作【内核态函数get_user从用户空间获取单个数据，内核态函数put_user向用户空间传递单个数据】。他接着说，如果能够捕获用户空间所有的访问操作，就可以确保对内存的所有读写得到处理。

Dan Williams表达了Glisse对ZONE_DEVICE使用的担心，因为ZONE_DEVICE常规用于持久内存【persistent-memory即掉电后数据依然存在的内存】。他想知道这两种用法如何区分的。Glisse说，他提交的补丁对两种用途进行了区分。

Glisse接着建议到，采用通用KSM机制来保护页不被读写【KSM内存共享机制，合并具有相同内容的物理主存页面以减少页面冗余，内核设计了KSM守护进程，定期扫描用户向它申请的内存区域，寻找相同的页面就会将其合并，并用一个写保护的页面来替代】。对于需要保护的页，page->mapping入口项可以用一个指针替换一下，这个指针指向一个保护结构体，所有对page->mapping的逆向引用都可以封装在帮助函数中【逆向引用指针的意思：通过修改指针变量的值，来动态访问数据结构的方法】。

经过Coccinelle工具的检查和修改，补丁本质上并没有变化【Coccinelle：Linux静态代码检查工具】。这些修改对重用KSM机制有好处，但这些修改是否会带来其他影响还不清楚。参会者中有人说，封装也会带来其他好处。Glisse说，他会将补丁用到其他使用场景。

设备内存页也需要回写到系统主存【There is a need to do writeback from the device memory pages】，Glisse建议在面对这种需求时，采用ISA块队列回弹缓冲机制【ISA block queue bounce buffer】，这种机制是上世纪九十年代提出的，现在内核还有相关代码实现【/kernel/block/bounce.c】。James Bottomley指出回弹缓冲机制不仅仅用于ISA设备；不对齐的struct bio结构体也会用到。回弹缓冲代码最终被Glisse用于HMM补丁。Glisse还会给系统管理员提供一些控制方法【knob】，从而帮助将设备内存数据回写到系统主存，这样一来，通过这些控制方法可以获取最后一点的性能提升，这种性能提升可能会损坏文件系统完整性。

一位参会成员建议，内核开发者要就内核引用不可直接访问内存达成共享协议。尽管内核不能直接访问这种类型内存，这种类型的内存可能也需要page结构来管理。这样才会获得普遍认可。

William还对涉及内核其他代码的若干问题表示担心，他依然不确信HMM使用ZONE_DEVICE是否明智。Glisse说，如果有必要他可以新增一个zone类型。Gorman现在到不是特别担心上述问题；Glisse表示同意，他说如果出现问题，他会及时关注。

当前HMM功能还没有上游用户，AMD GPU驱动和各种FPGA驱动在未来会用到HMM，Glisse希望Nouveau驱动也能用到HMM。Gormna说，用户一般认为系统主存要比可用的（或者使用的）设备内存大很多；否则，在数据从设备内存回迁时导致系统活锁。Glisse认同上述观点，认为这可能是一个问题，具体问题还要看补丁的实际应用情况。

Gorman认为现在可以聚焦在kernel接纳HMM补丁问题上；这个补丁对文件系统的影响（例如，回写）可以以后处理。Glisse同意说到，他正在做的工作就是将HMM移植到kernel中，同时也想讨论其他议题，从而确保对文件系统的影响不会导致很大的问题。