移动端下PLS（Pixel Local Storage）减少带宽开销的原理

最新推荐文章于 2023-06-16 13:17:36 发布

Crazy Engine

最新推荐文章于 2023-06-16 13:17:36 发布

阅读量1.1k

点赞数 1

分类专栏：光栅化渲染文章标签：移动端手游延迟着色

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CrazyEngine/article/details/120310567

版权

光栅化渲染专栏收录该内容

2 篇文章 0 订阅

订阅专栏

众所周知，移动端下为了性能搞出了TBR和TBDR架构。也就是渲染时整个RT均匀分成了很多个正方形的区域，遍历这些小区域来渲染。这些正方形区域就叫tile，tile上有个on-chip cache。

tile越大性能越高。因为遍历tile本身就是有性能开销的。另外，tile多了以后，tile边界上的三角形会在渲染不同的tile时重复从系统内存里读取。

已知的是，开启MSAA会导致tile的变小。根据个人猜测，PLS跟MSAA的实现方式神似。无非是把on-chip cache分成好几份，GBuffer放在其中的几块上，完毕后并不把结果存进系统内存，而是紧接着在剩下的那一块上累加光照，并且直接从on-chip里的GBuffer读取数据。

以前我一直认为GPU厂商良心发现，给增加了几块片上高速缓存，但目前来看应该不是事实。如果我来设计驱动，on-chip cache又不给增加，肯定会如上这么设计。这还需要搞驱动的朋友来证实。

如果GBuffer里的数据仅仅用于累加光照，根本不需要输出到Render pass之外，所以连RT都省了创建了，因为数据根本就不用出on-chip chache。这至少在Vulkan里已经支持了，叫“Memory less”。指定VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT和VK_MEMORY_PROPERTY_LAZILY_ALLOCATED_BIT 组合标志，并且在创建 Image 时指定 VK_IMAGE_USAGE_TRANSIENT_ATTACHMENT_BIT 标志，以及在 RenderPass 中指定 VK_ATTACHMENT_STORE_OP_DONT_CARE 标志才能启用此功能。

如果后期处理需要用到GBuffer怎么办？那就将需要的RT输出到系统内存嘛。至少光照累加的sub pass不用去系统内存里读MRT这些“肥胖”的数据，省不少带宽呢。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。