Vulkan-Sample-MSAA (Multisample anti-aliasing)

颜早早

已于 2024-02-03 15:06:04 修改

阅读量1k

点赞数 24

分类专栏： graphic android 文章标签：图形渲染

于 2024-01-22 07:55:34 首次发布

原文链接：https://github.com/KhronosGroup/Vulkan-Samples/tree/main/samples/performance/msaa

版权

android 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

graphic

1 篇文章 0 订阅

订阅专栏

原文

Aliasing是以低于原始信号采样率的采样率进行采样导致的。在图形学中，这个过程可以描述为：基于一个会产生artifacts的分辨率去计算像素值，从而在模型边缘产生锯齿。多重采样抗锯齿（Multisample anti-aliasing，MSAA）是一种可以减少像素采样误差的技术。在下面的图中，左侧的图是没有进行抗锯齿渲染的，而右侧的使用了4倍的MSAA。

在计算像素的颜色时，GPU会根据给定的 primitive 有没有覆盖像素的中心坐标（前提是这个 primitive 通过了深度测试），来决定这个像素的颜色。如下图所示，如果不进行抗锯齿，fragment shader就是根据“有没有覆盖像素的中心坐标”来决定像素的颜色的。这样的单采样的方式会不会造成锯齿，就取决于像素密度了。

使用多重采样反锯齿，会在一个像素内进行多个位置的测试。在下图中，有四个采样点，因此称为4倍的MSAA。因为每个采样点都需要存储一个颜色值，所以MSAA实际上增加了每个像素的分辨率。需要注意的是，fragment shader仍然只计算一次（使用中心坐标），这时候像素的颜色结果取决于那些落在 primitive 内的采样点的值（fragment shader会计算这个像素的前提仍然是这个 primitive 通过了深度测试，这意味着深度缓冲区也需要变大，才能支持每个像素存储多个值）。换句话说，片段着色器的值将会是所有被覆盖到的采样点的值混合的结果——像素的值会是所有采样点的平均值。以上便是MSAA的步骤，在这样的思路里，primitive 边缘处的颜色会有渐变效果，从而改善了锯齿效果。

在上图中，一个像素内采样点的位置，看起来像一个被旋转过的网格，采样坐标的规定可以在 spec 中查到。那些不规则的模式（我的理解是不遵循固定模式或者没有明显对称关系的图案）会在水平边缘或者垂直边缘获得更好的结果。请注意，MSAA只对边缘有影响，对 primitive 内部的像素没有影响，因为对于内部的像素，每采样点都是一样的的颜色。

MSAA与超级采样反锯齿（SSAA）不同（MSAA效果更好），在SSAA中，对每个采样点都执行一遍片段着色器。这有助于减少 primitive 内部的锯齿状效果，但通常使用mip-maps已经缓解了这个问题。

要启用MSAA，首先查询 vkPhysicalDeviceLimits ，选择支持的MSAA级别，例如 VK_SAMPLE_COUNT_4_BIT，并在创建 multisampled attachments 和设置图形管线中的pMultisampleState 的 rasterizationSamples 成员时使用它。正如前面所述，对于MSAA，我们不希望设置 sample shading，因为这意味着开启了更昂贵的SSAA。

Color resolve

tiler architectures 中做4倍MSAA是非常合适的，因为颜色解析可以在tile内存中做，因此是一个临时存储，典型的应用是下图的depth buffer。

（1. "Transient"（临时）：在这里，"transient"是指将 multisampled attachments 分配为临时内存，意味着它们不需要持久存储和写回主存。这可以提高性能，因为避免了将多重采样数据写回主存的开销。

2. "Necessary load/store"（必要的加载/存储）：这指的是对多重采样附件进行读取和写入操作是必要的，因为在渲染过程中需要对其进行处理或使用。这意味着在渲染通道的子通道中，需要正确配置加载和存储操作，以确保正确处理多重采样数据。

3. "Avoidable load/store"（可避免的加载/存储）：这指的是在渲染过程中不再需要对多重采样附件进行读取和写入操作。如果已经使用了颜色解析等技术将多重采样数据转换为单一采样数据，并且不再需要多重采样数据，那么对其进行加载和存储操作将是可避免的开销。）

很重要的点是，如果在渲染场景后不再需要 multisampled attachments，那么需要避免将 multisampled attachments写出到内存。也就是说，multisampled attachments 必须使用 storeOp = VK_ATTACHMENT_STORE_OP_DONT_CARE 并且 usage |= VK_IMAGE_USAGE_TRANSIENT_ATTACHMENT_BIT，并按照 Render Passes tutorial 中解释的方式使用 LAZILY_ALLOCATED 内存属性分配图像。

// multisampled attachments是临时的
// 这使得tilers可以完全避免将multisampled attachments写入到内存中，
// 显著的性能和带宽改进
load_store[i_color_ms].store_op = VK_ATTACHMENT_STORE_OP_DONT_CARE;

如下所示，为了在write-back过程中（write-back是指在渲染管线结束时将图像数据从 GPU 内存返回到 CPU 内存的过程）解析颜色，请配置subpass，将 pResolveAttachments 指向我们希望多采样颜色解析到的那个单采样附件（single-sampled attachment），在本例中是名为 swapchain 的图像。

// Good practice
// 启用write-back 解析到单采样附件（single-sampled attachment）
subpass->set_color_resolve_attachments({i_swapchain});

启用了4X MSAA后，我们所渲染到的color attachment 是一个更大的color attachment ，这个color attachment 里面，每个像素会存储4个颜色值。如果把这个attachment 保留在 tile 内存中，对性能的影响是很小的（如上面屏幕截图中所示，带宽增加3％），而在边缘处会使抖动现象大大减少。原因正是前面所说的，因为硬件在将image写回主内存时对multisampled attachmen作了解析（对样本进行平均处理）。

Vulkan提供了一种替代方法，使用 vkCmdResolveImage 为color attachment 来显示地定义一个separate resolve pass（单独的pass中解析颜色）：

// Bad practice
//将多采样附件解析到目标位置，非常昂贵
vkCmdResolveImage（cmd_buf.get_handle(),
                  multisampled_img.get_handle(),
                  VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL,
                  swapchain_img.get_handle(),
                  VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
                  to_u32(regions.size()), regions.data());

这种做法会产生较高的性能开销和内存占用，因为在这个做法里，需要在subpass 结束的时候存储这个multisampled attachments（在这个例子里，这个attachment 比frambuffer要大四倍），接着再把它读回GPU以进行解析。

如图所示，这种方法消耗了更多的带宽，如果有其他实现方法，不建议在write-back过程中使用pResolveAttachments 解析颜色。为了说明这一点，示例中设置了切换选项：一种是 resolving on write-back（在write-back期间解析颜色），另一种是在separate resolve pass（单独的pass中解析颜色），并监视由此对带宽的影响。

在高端智能手机上，如截图所示的Mali-G76的，带宽的差异可以如下解释。示例中渲染了一个2168 x 1080像素的图像，每个像素需要32位（RGBA8，4字节），帧率为60FPS：

1Xattachment ：2168 * 1080 * 4 * 60 = 562字节/秒
// 这里比较奇怪，我自己计算的结果是↓
// 字节（Byte）和位（Bit）之间的换算关系是：1 字节（Byte） = 8 比特（Bit）
// 字节（Byte）和M 之间的换算关系是：1MB = 2E+20 Bytes = 1048576Bytes
// 2168 * 1080 * 4 * 60 = 561,945,600 字节/秒 = 536 M/s

如果我们需要为每个像素存储4个样本值，则将其乘以4：

4Xattachment ：2168 * 1080 * 4 * 4 * 60 = 2247字节/秒

比较上面屏幕截图中计数器的数字，读取和写入带宽都大约增加了4倍attachment 的大小，因为在当前场景的renderpass结束时，需要将 multisampled attachments 写出，然后重新读取，再解析得到最终的颜色。这意味着 separate resolve pass导致带宽增加了5GB/秒。考虑到在移动设备中，外部DDR带宽的成本约为每GB/秒100毫瓦，这个500毫瓦的开销占据了设备大约2.5瓦功耗预算的20%，这是非常昂贵的。

这些计数器还可以使用Streamline之类的分析工具来记录，图示显示的 resolving on write-back的过程在前，随后进行separate resolve pass的过程。

Depth resolve

在上面举的例子中，无论 MSAA 是如何设置的，深度缓冲区都是临时存储的。这是因为当颜色值被计算出来，写出到swapchain给显示器显示用后，深度值就没有用了，因此我们建议配置加载/存储操作以避免将其写出。

有时候我们可能需要保存 depth attachment。比如一些简单的post-processing pass需要同时对颜色和深度采样（作为纹理绑定），从而计算出基于屏幕空间（而不是世界空间或裁剪空间）的一些特殊效果。（比如SSAO（Screen Space Ambient Occlusion,屏幕空间环境遮蔽技术））

和我们的预判一致，在这种情况下，增加的带宽约等于写出两个全屏附件的attachment。只要我们记住在write-back 期间解析颜色和深度，使用 4X MSAA 几乎不会带来额外开销。

为了在 write-back期间解析depth值，需要使用 VK_KHR_depth_stencil_resolve (从 Vulkan 1.2开始支持) 。在配置subpass的时候, 我们必须使用 VkSubpassDescription2 并将 pNext 指向一个 VkSubpassDescriptionDepthStencilResolve .这个结构定义了一个用于解析depth的 single-sampled attachment 。

// Good practice
// Multisampled attachment 是临时的
// 所以 tilers 可以避免将multisampled attachment 写出到内存。
// 由此产生了显著的性能和带宽改进
load_store[i_depth].store_op = VK_ATTACHMENT_STORE_OP_DONT_CARE;

// 启用 解析到 single-sampled attachment的write-back
subpass->set_depth_stencil_resolve_attachment(i_depth_resolve);
subpass->set_depth_stencil_resolve_mode(depth_resolve_mode);

通过设置 depthResolveMode ，也可以选择如何解析深度，depthResolveMode可选的选项在这里： supported (示例代码中查询了设备支持的模式并且提供了一个下拉菜单）:

typedef enum VkResolveModeFlagBits {
    VK_RESOLVE_MODE_NONE,
    VK_RESOLVE_MODE_SAMPLE_ZERO_BIT,
    VK_RESOLVE_MODE_AVERAGE_BIT,
    VK_RESOLVE_MODE_MIN_BIT,
    VK_RESOLVE_MODE_MAX_BIT
} VkResolveModeFlagBits;

与颜色相比，Vulkan 不提供其他方式来解析深度附件（ vkCmdResolveImage 不支持深度）。因此，如果 VK_KHR_depth_stencil_resolve 没有未支持或没有正确地配置，那么这个pipeline将需要额外的读取 multisampled depth attachment 来执行后处理效果。

在这个最糟糕的情况下，也就是同时将multisampled depth 和multisampled color 写入主存储器的这种情况，由于发生了separate resolve，需要重新将颜色值读回GPU，读取带宽增加了2366 MiB/s（接近之前计算过的4X附件的带宽）。写入带宽增加了3951 MiB/s，这大致对应于4X附件（2247 MiB/s）和1X附件（562 MiB/s）之间的差异1685 MiB/s，再加上写出额外的4X color attachment 所需的带宽2247 MiB/s（注：在这个例子中，深度也是32bpp，32bits per pixel，每个像素使用32位（也就是4字节）来存储颜色信息的意思）。总的来说，读写带宽的增加为6.3GB/s，相对于 write-back 解析的最佳实践增加了302%，并且消耗了630 mW的功耗（预算的25%），如果节省下来，可延长电池寿命，实现更稳定的性能水平和更好的用户体验。

最佳实践小结

对于大多数　multisampling的使用场景，可以将所有额外的采样数据保存在GPU内部的 tile 内存中，并在write-back tile 期间将其解析为单个像素颜色。这意味着这些额外增加的采样点，不会增加额外的带宽，不会访问外部存储器，这使得它非常高效。多重采样抗锯齿（MSAA）可以完全与Vulkan render passes集成，允许明确指定在subpass结束时做多重采样解析。

应该：

尽量使用（4x MSAA）；它不会过于昂贵，同时又很好的改善了图像质量。
对于多重采样图像，使用 loadOp = LOAD_OP_CLEAR 或者 loadOp = LOAD_OP_DONT_CARE
对于多重采样图像，使用 storeOp = STORE_OP_DONT_CARE 。
使用 LAZILY_ALLOCATED 内存来配合分配的 multisampled images；它们不需要持久化到主内存，不需要保存在物理存储设备上。
在 subpass 中使用 pResolveAttachments 自动将多重采样颜色缓冲区解析为单采样颜色缓冲区。
在subpass 中使用 VK_KHR_depth_stencil_resolve 来自动将多重采样深度缓冲区解析为单采样深度缓冲区。通常，只有在深度缓冲区将进一步使用的情况下才有用，在大多数情况下，它是临时的数据，不需要被解析。