unity 性能优化之合批和剔除

最新推荐文章于 2024-08-16 16:33:03 发布

暮志未晚NAN

最新推荐文章于 2024-08-16 16:33:03 发布

阅读量2.2k

点赞数 2

文章标签： unity 性能优化游戏引擎

本文链接：https://blog.csdn.net/qq_30100043/article/details/130448521

版权

批次对渲染的性能影响是比较大的，批次过多会导致cpu提交的次数过多，导致每帧渲染时间过长，所以我们需要对其优化，减少Bathches数量和SetPassCall次数。
批次合并的方法有多种，下面一一列出：

手动合批

将相同材质的Mesh，合并为一个新的Mesh，这样一次渲染，最方便调节，虽然现在不怎么使用这种方式。就是有点费手，会增加内存和包体大小，而且会增加LightMap中占有的尺寸，以及重新制作LOD，并且体积过大了会导致LightProbe和ReflectionProbe的变化单一。相关插件：MeshBaker以及教程

静态合批 Static batching：

原理：

在非运行期间，自动计算Mesh合并后的顶点并转换到世界空间坐标系下，构建共享的顶点和索引缓冲区，在运行时将该数据上传到gpu。编辑器运行是在点击运行时编译，打包是会在build时打包在场景中。对于场景，每个静态物体没有实际的合并操作，还是单独的个体，在运行时，我们会发现它使用了一个合并的Mesh。运行时还是按照正常流程对每个物体进行剔除，排序，渲染操作。渲染单个物体时，每个渲染器组件调用Drawcall中仅包含三角形索引的偏移量和范围，因此速度非常快。静态合批不会减少Drawcall，而是减少了SetPassCall和数据提交的次数。简单的理解就是，静态合批只是改变了提交的内容，让多次提交变为了一次，而这些次的提交只是改变成了从那一次提交的内容里面拿数据渲染。

条件：

材质及shader参数要完全一致才能合批。LightMap，LightProbe，ReflectionProbe，多光源都需要一致，LightMap尽量增加尺寸推荐2k，其它的尽量禁掉，或者增大影响范围，共用一个。
合批是在世界空间下，如果使用了对象空间坐标，会出现错误。

优点：

合并操作是自动处理，没有污染，不会更改任何场景内的数据，对象可以单独进行剔除，LOD

缺点：

内存和包体占用增加，特别是大量重复的物体，树，草。每个批次最多包含65000个顶点，超出了会额外合并。

GPU Instancing

原理

GPU Instancing是将一个网格发送到GPU并使用一组变换矩阵和MaterialPropertyBlocks对其进行渲染。
当执行Instance合批时，会收集所有需要的信息（变换矩阵，材质属性块）创建一个按实例ID索引的数组。矩阵是存储的世界空间坐标系数据，如果每帧合批的物体有变动，那么每帧都需要付出性能进行数据重新生成。材质属性块则是用来可以自定义一些单独的属性（per-instance property），但是不支持纹理，需要额外的书写支持。实现方式在shader中需要写入常量缓冲区：

UNITY_INSTANCING_BUFFER_START(Props)
  UNITY_DEFINE_INSTANCED_PROP(float4, _Color)
UNITY_INSTANCING_BUFFER_END(Props)

我们需要将切换的属性写在UNITY_INSTANCING_BUFFER_START和UNITY_INSTANCING_BUFFER_END之间。然后还需要在程序上兼容，可以在调用 DrawMeshInstanced 时通过脚本手动构建，或者使用 MaterialPropertyBlock 在Renderer组件上设置。

几种实现方式

在材质球面板开启GPU Instance选项
这种方式也是基本上常用的方式，也是一种自动化的GPU Instancing。勾选以后，即可实现了GPU Instancing合批，重要的是你的Shader一定要支持，unity内置的都支持。
Unity会根据摄像机当前所见的物体，收集信息动态构件Constant Buffer（常量缓冲区），如果材质上的属性不同，我们还可以在shader上增加额外的一些属性，这些属性需要写在UNITY_INSTANCING_BUFFER中间。
DrwaMeshInstanced
这个需要使用代码实现控制GPU Instancing，能够一次绘制更多的物体，最多一次绘制1023个，这个主要取决于CBuffer的容量，Constant Buffer的最大容量只有64K。这种实例化方法同脚脚本管理一个持久的常量缓冲区（CBuffer），不会随着摄像机所见物体频繁更改CBuffer。因此能获得更好的cpu和gpu性能，代价就是占用一定的cpu内存。这种方式会绕开unity的渲染框架，因此每个模型无法应用剔除操作和LOD等功能。
DrawMeshInstancedIndirect / DrawMeshInstancedProcedural
官方文档点击此处，这种方法是通过COmputeBuffer来提供Instance数据，ComputeBuffer其实是StructureBuffer，容量可以比Constant Buffer大很多。因此这种方法可以绘制巨量的Instance。几何Compute Shader能够实现GPU Frustum Culling（GPU视椎体剔除）和Hi-z Occlusion Culing（Hi-z遮挡剔除），缺点是兼容性差，需要ShadingModel 4.5以上，支持Compute Shader 和 Compute Buffer的硬件特性。

实现条件

需要相同的Mesh
需要相同的材质
Shader需要支持GPU Instancing

优势

不会因为物体的增加额外占用大量的内存。
适用于大量重复的物体，比如树，草，小石头等
支持per-instance property，自定义单个模型的属性

缺点

只能支持相同的Mesh
LOD会打断GPU Instancing合批，静态的则不会，因为合并的时候，它已把LOD相关的合并在了一个模型内。

SRP Batcher

原理

SRP是基于Shader进行的批处理，不需要Mesh和材质相同，它是实现了，减少每种材质切换时的设置也就是减少cpu和gpu之间的交互来实现性能优化。运行逻辑是在启动时，将网格上传到gpu，然后将使用SRP合批的材质主数据放入列表一次上传并在每帧更新时去更新列表中的数据。渲染时会对列表进行偏移获取数据渲染，主要起到了合并SetPassCall的作用。