众所周知,移动端下为了性能搞出了TBR和TBDR架构。也就是渲染时整个RT均匀分成了很多个正方形的区域,遍历这些小区域来渲染。这些正方形区域就叫tile,tile上有个on-chip cache。
tile越大性能越高。因为遍历tile本身就是有性能开销的。另外,tile多了以后,tile边界上的三角形会在渲染不同的tile时重复从系统内存里读取。
已知的是,开启MSAA会导致tile的变小。根据个人猜测,PLS跟MSAA的实现方式神似。无非是把on-chip cache分成好几份,GBuffer放在其中的几块上,完毕后并不把结果存进系统内存,而是紧接着在剩下的那一块上累加光照,并且直接从on-chip里的GBuffer读取数据。
以前我一直认为GPU厂商良心发现,给增加了几块片上高速缓存,但目前来看应该不是事实。如果我来设计驱动,on-chip cache又不给增加,肯定会如上这么设计。这还需要搞驱动的朋友来证实。
如果GBuffer里的数据仅仅用于累加光照,根本不需要输出到Render pass之外,所以连RT都省了创建了,因为数据根本就不用出on-chip chache。这至少在Vulkan里已经支持了,叫“Memory less”。指定VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT和VK_MEMORY_PROPERTY_LAZILY_ALLOCATED_BIT 组合标志,并且在创建 Image 时指定 VK_IMAGE_USAGE_TRANSIENT_ATTACHMENT_BIT 标志,以及在 RenderPass 中指定 VK_ATTACHMENT_STORE_OP_DONT_CARE 标志才能启用此功能。
如果后期处理需要用到GBuffer怎么办?那就将需要的RT输出到系统内存嘛。至少光照累加的sub pass不用去系统内存里读MRT这些“肥胖”的数据,省不少带宽呢。