了解 RISC-V IOMMU

了解 RISC-V IOMMU

个人作为 IOMMU 初学者,从初学者的角度介绍我眼中 RISCV 的 IOMMU

如果有些描述不够专业,还请谅解,也欢迎讨论

部分内容来自 https://zhuanlan.zhihu.com/p/679957276(对于 RISCV IOMMU 规范手册的翻译,推荐前往此链接查找更详细的内容),同时增加了部分自己的理解

如侵删

一、IOMMU 的背景

输入输出内存管理单元 (IOMMU),有时也称为系统 MMU (SMMU),是一个系统级内存管理单元 (MMU),用于将具有直接内存访问(DMA)功能的输入/输出 (I/O) 设备连接到系统内存

没有 IOMMU 时:

  1. 非虚拟化的情况下,IO 设备得到的是物理地址,在进行 DMA 时可能破坏其他的设备或者系统内存

  2. 虚拟化的情况下,Guest OS 不能直接访问 PA,每次 DMA 操作都要陷入到 VMM 为 I/O 设备分配物理内存

有 IOMMU 时:

  1. 使得设备 DMA 更加安全,可以限制设备能够访问的物理内存
  2. 地址转换 IOVA -> PA,可以支持连续的 IOVA,非连续的 PA,可以利用物理内存中分散的页
二、IOMMU 在 SOC 中的位置

以 Spec 中的图5为例,该 SOC 集成了内存控制器和多个 IO 设备,还集成了两个 IOMMU 实例。

设备可以直接连接到 IO Bridge 和系统互连,也可以在需要将 IO 协议事务转换为系统互连事务时通过 Root Port 连接

第一个 IOMMU 实例 IOMMU 0(与 IO Bridge 0 相关联)将一个 Root Port 连接到系统结构/互连(Root Port 是一个 PCIe 端口),一个或多个终端设备通过该 Root Port 与 SoC 连接。

第二个IOMMU 实例 IOMMU 1(与 IO Bridge 1 相关联)说明了在不使用 Root Port 的情况下将设备(IO 设备 A 和 B)连接到系统架构的情况。

IO Bridge 位于设备和系统互连之间,用于处理 DMA 事务,IO 设备可使用 IO 虚拟地址(VA、GVA 或 GPA)执行 DMA 事务,IO Bridge 调用相关的 IOMMU,将 IOVA 转换为监控器物理地址 (SPA)。

在这里插入图片描述

Host interface:它是连接 IOMMU 的接口,供 Harts 访问其内存映射寄存器,并执行全局配置和/或维护操作

Data structure interface:它被 IOMMU 用于隐式访问内存。用于从主内存中获取所需的数据结构

Device Translation Request:从 IO Bridge 接收转换请求。在此接口上,IO Bridge 提供有关请求的信息。

Device Translation Completion:用于提供 IOMMU 对先前请求的地址转换的完成响应。

**ATS **:如果 IOMMU 支持可选的 PCIe ATS 功能,则 ATS 接口用于通过 PCIe Root Port 与具有 ATS 功能的 EP(Endpoint,即 PCIe 设备) 通信。

三、IOMMU 导言

节选出了我认为有助于理解 IOMMU 的部分

对于通过 IOMMU 连接到系统的每个 I/O 设备,软件都可以在 IOMMU 上配置设备上下文,将特定的虚拟地址空间和其他针对设备的参数与设备关联起来。通过在 IOMMU 为每个设备提供独立的设备上下文,可以为每个设备单独配置一个操作系统,这个操作系统可以是 Guest OS,也可以是主(主机)操作系统。在设备发起的每一次内存访问中,IOMMU 都会通过某种形式的唯一设备标识符来识别发起访问的设备,然后IOMMU 会使用该标识符在软件提供的数据结构中找到相应的设备上下文。本规范将这种唯一的设备标识符称为 device_id,并支持多达 24 位宽的标识符。

某些设备可能支持共享虚拟寻址,即与设备共享进程地址空间的功能。为支持此类寻址,软件可将一个或多个进程上下文配置到设备上下文中。此类设备启动的每次内存访问都会伴随一个唯一的进程标识符,IOMMU 将该标识符与唯一的设备标识符结合使用,以定位软件在设备上下文中配置的适当进程上下文。例如,对于 PCIe,进程上下文可由唯一的 20 位进程地址空间标识符 (PASID) 标识。本规范将此类唯一进程标识符称为 process_id,并支持多达 20 位宽的标识符。

IOMMU 采用两阶段地址转换流程,将 IOVA 转换为 SPA,并对 DMA 实施内存保护。为了执行地址转换和内存保护,IOMMU 在第一阶段和第二阶段地址转换中使用与 CPU 的 MMU 相同的页表格式。使用与 CPU MMU 相同的页表格式,可以消除 DMA 在内存管理方面的一些复杂性。使用相同的格式还允许 CPU MMU 和 IOMMU 同时使用相同的页表。

IOMMU 采用的虚拟内存方案可为每个设备单独配置 IOMMU。设备使用 I/O 虚拟地址 (IOVA) 执行 DMA。根据为设备选择的虚拟内存方案,设备使用的 IOVA 可能是 Supervisor 物理地址 (SPA)、Guest 物理地址 (GPA) 或虚拟地址 (VA)

IOMMU 中的 DMA 地址转换对 DMA 访问有一定的性能影响,因为使用软件提供的数据结构确定 SPA 所需的时间可能会延长访问时间。CPU MMU 中的类似开销通常是通过使用转换旁路缓冲器(TLB)来缓存这些地址转换,以便在后续访问中重复使用,从而减少转换开销。IOMMU 可以使用类似的地址转换缓存,即 IOMMU 地址转换缓存(IOATC)。当用于地址转换的内存驻留数据结构被修改时,IOMMU 为软件提供了使IOATC 与之同步的机制。软件可使用软件定义的上下文标识符(称为 Guest 软件上下文标识符 (GSCID))配置设备上下文,以’指示设备集合被分配给同一虚拟机’,从而访问共同的虚拟地址空间。软件可使用称为进程软件上下文标识符(PSCID)的软件定义上下文标识符配置进程上下文,以标识’共享共同虚拟地址空间的进程’集合。IOMMU 可使用 GSCID 和 PSCID 标记 IOATC 中的条目,以避免重复并简化失效操作。

四、IOMMU 的几种使用模式
1、非虚拟化 OS 的情况

对于这种情况,我的理解是:

  1. 用来做保护的,限制 DMA 能访问的物理内存区域
  2. 支持可以使用分散的物理内存区域

IOMMU 为操作系统提供了一种机制,通过限制设备可访问的内存来防止这种意外损坏。如图所示,操作系统可通过页表配置 IOMMU,以转换 IOVA,从而将可访问的地址限制在页表允许的范围内

传统的 32 位设备无法访问超过 4 GiB 的内存。如果没有 IOMMU,操作系统就必须通过分配在 4 GiB 以下内存中的缓冲区来复制数据。

IOMMU 可用于执行分散/聚集(scatter/gather)DMA,它允许为 I/O 分配较大的内存区域,而无需所有内存都是连续的一个连续的虚拟地址范围可以映射到这些零散的物理地址,并用虚拟地址范围对设备进行编程。

IOMMU 可用于支持共享虚拟寻址,即与设备共享进程地址空间。用于 DMA 的虚拟地址由 IOMMU 转换为SPA。

当 IOMMU 被非虚拟化操作系统使用时,第一阶段足以提供所需的地址转换和保护功能,第二阶段可设置为 “Bare”。

在这里插入图片描述

2、Hypervisor 的情况

对于这种情况,我的理解是:

  1. Hypervisor 提供 GPA->SPA 转换,限制 Guest OS 访问的物理内存
  2. 同时也支持仅OS的情况,可以使用分散的物理内存
  3. 对于使用 MSI 中断的设备,可以借助 IOMMU 找到 VM 对应的中断文件

直接控制设备的 Guest OS 将使用 GPA 对设备进行编程。当设备使用这些地址执行内存访问时,IOMMU 就会使用 Hypervisor 提供的地址转换数据结构,负责将这些 GPA 转换为 SPA 。

在这里插入图片描述

为了处理由 Guest OS 控制的设备发出的 MSI,Hypervisor 会配置 IOMMU,将这些 MSI 重定向到 IMSIC 中的 Guest 中断文件(见下图)或内存驻留中断文件。IOMMU 负责使用 Hypervisor 提供的 MSI 地址转换数据结构来执行 MSI 重定向。

在这里插入图片描述

3、Guest OS 的情况

对于这种情况,我的理解是:

以上两种情况的结合,第一阶段地址翻译为了让 Guest OS 感知不到 Hypervisor 的存在,以为自己是一个物理机上的 OS(即第一种情况),第二阶段翻译对应以上的第二种情况

Hypervisor 可以通过硬件仿真或让 Guest OS 使用 Hypervisor 的软件接口来提供虚拟IOMMU 设施。Guest OS 可以使用虚拟 IOMMU 提供的设施,通过使用它所控制的第一阶段页表,获得与非虚拟化操作系统相同的好处。Hypervisor 会建立一个由其控制的第二阶段页表,以虚拟化虚拟机的地址空间,并包含从传递给虚拟机的设备到与虚拟机相关的内存的内存访问。

启用两阶段地址转换后,IOVA 首先使用 Guest OS 管理的第一阶段页表转换为 GPA,然后使用 Hypervisor 管理的第二阶段页表将 GPA 转换为 SPA

IOMMU 配置为使用设备 D1 的第一阶段和第二阶段页表执行地址转换。第二阶段通常由 Hypervisor 用于将 GPA 转换为 SPA,并将设备 D1 限制为与 VM-1 相关的内存第一阶段通常由 Guest OS 配置,将 VA 转换为 GPA,并将设备 D1 的访问限制在 VM-1 内存的子集上

对于设备 D2,只有第二阶段处于激活状态,第一阶段设置为 “Bare”,我认为可以看作没有 OS 配置页表的情况,即看作使用没有使用虚拟地址的 RTOS 或者裸机程序。

Hypervisor 也可以保留一个设备(如 D3)供自己使用。第一阶段足以为设备 D3 提供所需的地址转换和保护功能,第二阶段设置为 “Bare”,这种情况和在没有虚拟化的 OS 类似。

在这里插入图片描述

  • 7
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
这里我提供一个简单的64位RISC-V IOMMU模块的verilog代码示例。这个模块支持基本的输入输出设备和主存之间的数据传输,并提供了虚拟化和内存隔离支持。 ``` module riscv_iommu( input clk, input rst, input [63:0] in_addr, input [63:0] out_addr, input [2:0] access_mode, input [63:0] page_table_base, input [63:0] page_table_mask, output [63:0] data_in, input [63:0] data_out ); /* 定义一些常量 */ localparam PAGE_SIZE = 8192; localparam PAGE_OFFSET_BITS = 13; localparam PAGE_TABLE_SIZE = 4096; /* 定义一些寄存器 */ reg [63:0] mem[1024]; // 主存 reg [63:0] in_data; // 输入数据 reg [63:0] out_data; // 输出数据 reg [63:0] page_table[PAGE_TABLE_SIZE]; // 页表 reg [63:0] page_table_entry; // 页表项 /* 定义一些辅助函数 */ function [63:0] translate_address; input [63:0] addr; input [63:0] page_table_base; input [63:0] page_table_mask; reg [63:0] translated_addr; reg [31:0] page_offset; reg [31:0] page_index; reg [31:0] page_table_index; page_offset = addr[PAGE_OFFSET_BITS-1:0]; page_index = addr[63:PAGE_OFFSET_BITS]; page_table_index = page_index % PAGE_TABLE_SIZE; page_table_entry = page_table[page_table_index]; if (page_table_entry[0]) begin // 检查页表项的有效位 translated_addr = {page_table_entry[62:13], page_offset}; end else begin translated_addr = 64'h0; // 无效地址 end if ((addr & page_table_mask) != (translated_addr & page_table_mask)) begin translated_addr = 64'h0; // 无效地址 end return translated_addr; endfunction /* 主要的IOMMU功能 */ always @(posedge clk) begin if (rst) begin in_data <= 0; out_data <= 0; end else begin case(access_mode) 3'b000: in_data <= data_in; // 读模式 3'b001: mem[in_addr] <= in_data; // 写模式 3'b010: out_data <= mem[out_addr]; // 读取主存中的数据 3'b011: out_data <= data_out; // 直接输出数据 3'b100: begin // 页表读模式 out_data <= page_table[in_addr[31:3]]; end 3'b101: begin // 页表写模式 page_table[in_addr[31:3]] <= data_in; end 3'b110: begin // 虚拟地址翻译 out_data <= translate_address(in_addr, page_table_base, page_table_mask); end endcase end end endmodule ``` 这个模块包含了一个主存数组、一个输入输出端口和一个页表。在读模式下,数据输入端口的数据会被存储在in_data寄存器中;在写模式下,in_data寄存器中的数据会被写入到主存中。在读取主存中的数据时,out_addr指定了要读取的地址;在直接输出数据模式下,data_out端口中的数据会被直接输出到外部。在页表读写模式下,in_addr指定了要读写的页表项地址。在虚拟地址翻译模式下,in_addr指定了要翻译的虚拟地址,page_table_base和page_table_mask分别指定了页表的基地址和掩码。在翻译过程中,模块会根据页表和掩码计算出物理地址,并将其输出到out_data端口中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值