移动端下PLS(Pixel Local Storage)减少带宽开销的原理

众所周知,移动端下为了性能搞出了TBR和TBDR架构。也就是渲染时整个RT均匀分成了很多个正方形的区域,遍历这些小区域来渲染。这些正方形区域就叫tile,tile上有个on-chip cache。

tile越大性能越高。因为遍历tile本身就是有性能开销的。另外,tile多了以后,tile边界上的三角形会在渲染不同的tile时重复从系统内存里读取。

已知的是,开启MSAA会导致tile的变小。根据个人猜测,PLS跟MSAA的实现方式神似。无非是把on-chip cache分成好几份,GBuffer放在其中的几块上,完毕后并不把结果存进系统内存,而是紧接着在剩下的那一块上累加光照,并且直接从on-chip里的GBuffer读取数据。

以前我一直认为GPU厂商良心发现,给增加了几块片上高速缓存,但目前来看应该不是事实。如果我来设计驱动,on-chip cache又不给增加,肯定会如上这么设计。这还需要搞驱动的朋友来证实。

如果GBuffer里的数据仅仅用于累加光照,根本不需要输出到Render pass之外,所以连RT都省了创建了,因为数据根本就不用出on-chip chache。这至少在Vulkan里已经支持了,叫“Memory less”。指定VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT和VK_MEMORY_PROPERTY_LAZILY_ALLOCATED_BIT 组合标志,并且在创建 Image 时指定 VK_IMAGE_USAGE_TRANSIENT_ATTACHMENT_BIT 标志,以及在 RenderPass 中指定 VK_ATTACHMENT_STORE_OP_DONT_CARE 标志才能启用此功能。

如果后期处理需要用到GBuffer怎么办?那就将需要的RT输出到系统内存嘛。至少光照累加的sub pass不用去系统内存里读MRT这些“肥胖”的数据,省不少带宽呢。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值