基于Unity的软光栅实现(2)：CPU单线程软光栅

已于 2022-03-25 18:31:17 修改

阅读量2.8k

点赞数 1

分类专栏：图形学 Unity 文章标签：图形学 GAMES101 unity

于 2022-03-23 16:00:53 首次发布

本文链接：https://blog.csdn.net/n5/article/details/123681241

版权

Unity 同时被 2 个专栏收录

32 篇文章 5 订阅

订阅专栏

图形学

26 篇文章 14 订阅

订阅专栏

文章目录

About
CPURasterizer
渲染数据： CPURenderObjectData
- 输入数据
- 中间输出数据
缓冲区
- 缓冲区定义
- 清除缓冲区
视锥剔除
顶点变换
图元集成
光栅化三角形
- 透视校正插值
片段着色
MSAA
输出到贴图

About

本系列文章是关于本人的开源项目 URasterizer: A software rasterizer on top of Unity, accelerated by Job system & Compute Shader的总结和介绍。
第一篇：基于Unity的软光栅实现(1)：框架搭建和矩阵构造
第二篇：基于Unity的软光栅实现(2)：CPU单线程软光栅（本篇）

CPURasterizer

在上篇文章中，我们搭建了整个框架，使用RendringObject组件从Mesh上获取了模型数据并转换成我们需要的格式，获取场景中的Camera和灯光的参数，计算所需要的各个矩阵，以及其他场景信息Uniform。
本篇中，将介绍基于CPU单线程的软光栅渲染器 CPURasterizer。包括数据准备，缓冲区构建，顶点变换，图元集成，光栅化和片段着色，MSAA等内容，基本就是一个完整的光栅化流水线了。

渲染数据： CPURenderObjectData

每种渲染器使用的渲染数据，都是包含在RenderingObject中的，在RenderingObject激活时创建。这些数据是和Mesh一一对应的，根据不同渲染器的需求从Mesh中提取相应数据并处理。

输入数据

对于软光栅来说，从Unity模型获取的顶点坐标、法线、UV、索引等数据是可以直接使用的，虽然有手向性差异需要转换，但可以在使用数据时再转换。但是我们仍然需要注意一个问题，就是GC。如果直接在每帧渲染时通过mesh.vertices等方法获取数据，就会造成GC Alloc。以mesh.vertices为例，这是一个属性，看Unity的注释可以知道这个属性返回的是顶点位置的拷贝。

Returns a copy of the vertex positions or assigns a new vertex positions array.

首先copy顶点本身就是一个耗时的操作，然后返回的是一个数组，虽然顶点位置是Vector3本身是值类型，但是数组是引用类型。创建数组时，其成员也会在托管堆上分配，这就会造成每帧分配大量的托管堆。加上其他顶点属性，会造成非常重的GC Alloc。因此我们需要将这些数据缓存，这就是CPURenderObjectData做的事情。

中间输出数据

在流水线的开始，顶点属性会经过变换（vertex shading），变换结果也要保存，保存为一个 VSOutBuf 结构的数组，也放在CPURenderObjectData中。VSOutBuf的定义如下：

	public struct VSOutBuf
    {
        public Vector4 clipPos; //clip space vertices
        public Vector3 worldPos; //world space vertices
        public Vector3 objectNormal; //obj space normals
        public Vector3 worldNormal; //world space normals
    }

由于下面会在世界空间计算光照，因此会输出世界空间的位置和法线，另外由于我们有法线可视化的功能，因此也输出了本地空间的法线。裁剪空间的位置也是默认要输出的，用于后面的clipping操作。

缓冲区

缓冲区定义

上篇提到，CPURasterizer使用一个Texture2D作为最终的输出目标。但是直接操作Texture2D并不方便，且除了颜色缓存，还需要可视化深度缓存。因此CPURasterizer中使用数组保存这几个缓冲区：

		Color[] frame_buf;
        float[] depth_buf;
        Color[] temp_buf;

其中temp_buf的作用是深度缓冲可视化时，用于填充颜色。
颜色缓冲区frame_buf直接使用Color类型，深度缓冲使用float类型。
另外由于要支持MSAA，需要一些额外的缓冲区，具体在MSAA时介绍。

清除缓冲区

CPURasterizer实现IRasterizer接口的方法Clear，来清除缓冲区。其实就是简单的将数组设置为某个值。但是我们不能直接遍历数组，用一个大循环去设置，因为这样太慢了。如果是c/c++可以直接使用memcpy或memset，但是C#数组不支持这个。CPURasterizer使用了一个快速的数组填充方法：

		public static void FillArray<T>(T[] arr, T value)
        {
            int length = arr.Length;            
            if(length == 0){
                return;
            }
            arr[0] = value;

            int arrayHalfLen = length/2;
            int copyLength;
            for(copyLength = 1; copyLength <= arrayHalfLen; copyLength<<=1){
                Array.Copy(arr, 0, arr, copyLength, copyLength);
            }
            Array.Copy(arr, 0, arr, copyLength, length-copyLength);            
        }

基本原理就是使用Array.Copy循环成倍copy。经过简单测试，使用这个方法填充数组，clear函数的时间消耗从2.5ms左右降低到不到0.5ms，提升还是很明显的。

视锥剔除

Frustum culling其实是应用阶段的工作，不属于图形流水线。但因为我们是自己渲染的，不能利用Unity的culling，所以自己实现了一下。关于Frustum culling的实现，网上有很多介绍，大多数都是获取6个裁剪面的平面，然后针对这6个平面，分别判断AABB的8个点有同时在该平面外面的情况，如果有则被剔除。这种方法是保守剔除，这是正确的，不会错误剔除掉不该剔除的AABB。但是可能有一些特殊位置的AABB剔除不掉。视锥剔除看似简单，其实有很多可研究的地方，本项目就没有展开了。不过本项目也使用了一个不常用的方法，即clip space下的OBB视锥剔除。和AABB的保存剔除方法其实一样。只是是在clip space中进行剔除，将Rendering Object的local AABB使用MVP矩阵变换到clip space中，得到clip space中的OBB。然后利用clip space中顶点x,y,z分量在[-w,w]中的性质进行剔除的检查。这个方法省去了提取6个剪裁面的麻烦，且点和面的比较从点积比较简化成直接比较坐标，虽然没有详细分析，但我觉得这个方法应该是优于常规的视图空间的剔除。特别是对于视锥剔除，我们只要知道是否在视锥体外面即可，不需要判断是否则完全在内部以及是否有相交的情况。至于使用矩阵变换AABB的消耗，我觉得虽然比直接用某些特殊方法转换AABB要费一些，但是他得到的是OBB更加精确，更不用提网上的很多方法也是直接变换AABB。

顶点变换

计算包括clip space pos在内的所有需要的顶点属性，保存在 vsOutput中。矩阵乘法直接使用Matrix4x4的operator *即可。由于是单线程计算，直接一个大循环处理所有顶点。

图元集成

Clipping

通过索引获取到三角形三个顶点之后，首先进行Clipping操作。三角形Clipping操作，对于部分在clipping volume中的图元，硬件实现时一般只对部分顶点z值在near,far之间的图元进行clipping操作，而部分顶点x,y值在x,y裁剪平面之间的图元则不进行裁剪，只是通过一个比viewport更大一些的guard-band区域进行整体剔除（相当于放大x,y的测试范围）。这样x,y裁剪平面之间的图元最终在frame buffer上进行Scissor测试。URasterizer的实现简化为只整体的视锥剔除，不做任何clipping操作。对于x,y裁剪没问题，虽然没扩大region,也可以最后在frame buffer上裁剪掉。对于z的裁剪由于没有处理，会看到整个三角形消失导致的边缘不齐整。clipping直接使用了视锥剔除的算法，只是判断的是三角形的3个顶点，而不是OBB的8个顶点。需要注意的是（包括视锥剔除也是），和 w 比较时，要知道clip pos的w值不一定是正数。由于NDC中总是满足-1<=Zndc<=1, 而当 w < 0 时，-w >= Zclip = Zndc*w >= w。所以此时clip space的坐标范围是[w,-w], 为了比较时更明确，将w取正，这样始终比较 -w <= x,y,z <= w。

Backface culling

这个简单，直接使用三角形两个相邻边的叉积，判断叉积的z值小于0则被剔除。

Viewport transform

将NDC的坐标变换到屏幕坐标，对于x,y坐标就是正常从[-1,1]变换到[0,screenWidth-1]和[0,screenHeight-1]。在硬件渲染中，NDC的z值经过硬件的透视除法之后就直接写入到depth buffer了，如果要调整需要在投影矩阵中调整。由于我们是软件渲染，所以可以在这里调整z值。GAMES101约定的NDC是右手坐标系，z值范围是[-1,1]，但n为1，f为-1，因此值越大越靠近n。为了可视化Depth buffer，将最终的z值从[-1,1]映射到[0,1]的范围，因此最终n为1, f为0。离n越近，深度值越大。由于远处的z值为0，因此clear时深度要清除为0，然后深度测试时，使用GREATER测试。当然我们也可以在这儿反转z值，然后clear时使用float.MaxValue清除，并且深度测试时使用LESS_EQUAL测试。注意：这儿的z值调整并不是必要的，只是为了可视化时便于映射为颜色值。其实也可以在可视化的地方调整。但是这么调整后，正好和Unity在DirectX平台的Reverse z一样，让near plane附近的z值的浮点数精度提高。

光栅化三角形

光栅化使用的是重心坐标法，即首先计算三角形的AABB，对在AABB范围内的像素计算重心坐标，当重心坐标alpha,beta,gamma均大于0时，则该像素在三角形内，需要计算颜色并进行深度测试最终将颜色填充到color buffer中。我之前是使用IsInsideTriangle方法，通过叉积判断点是否在三角形内，但后来通过profile发现，使用重心坐标判断效率更高。

透视校正插值

GAMES101的作业框架由于存在错误，导致透视校正插值失效了。URasterizer中修复了这点，对所有顶点属性都进行了透视校正插值。
在这里插入图片描述
上图中所有格子都是相同大小，通过透视校正，可以做到近大远小。

片段着色

着色方法没啥好说，说一下获取贴图数据。由于为了兼容Job，这儿给CPURasterizer使用的贴图数据也直接使用了NatvieArray。获取方法如下：

input.TextureData = ro.texture.GetPixelData<URColor24>(0);

其中TextureData的定义如下：

public NativeArray<URColor24> TextureData; //因为我们的纹理都是RGB格式的(24位)，所以不能用Color32(32位)

这里我们获取的是mip0的贴图数据，即原始贴图数据。因为使用的贴图都RGB24位的，所以这里的颜色结构体不能使用Color32，只能自己定义了一个URColor24的结构体。另外为了可以读取贴图数据，需要在贴图的导入设置里面将read/write enabled打开。

MSAA

MSAA是在子像素级别进行深度测试，且color buffer也扩大为可以存储所有可见的子像素的颜色。另外还需要记录哪些子像素可见。URasterizer使用了如下的几个buffer:

		Color[] samplers_color_MSAA;
        bool[] samplers_mask_MSAA;
        float[] samplers_depth_MSAA;

光栅化之后，需要进行Resolve操作，根据可见子像素的颜色和数量，计算最终像素的颜色。

输出到贴图

渲染完成后，在 UpdateFrame 中，需要将颜色缓冲的数据设置到贴图上。由于URasterizer支持可视化深度缓冲，所以会根据使用的模式，选择不同的缓冲区数据，设置给贴图。以下是深度可视化效果，分别使用R通道以及RGB通道：
在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于Unity的软光栅实现(2)：CPU单线程软光栅

文章目录CPURasterizer渲染数据： CPURenderObjectData输入数据中间输出数据缓冲区缓冲区定义清除缓冲区视锥剔除顶点变换图元集成ClippingBackface cullingViewport transform光栅化三角形透视校正插值片段着色MSAA输出到贴图CPURasterizer本篇介绍基于CPU单线程的软光栅渲染器 CPURasterizer。包括数据准备，缓冲区构建，顶点变换，图元集成，光栅化和片段着色，MSAA等内容，基本就是一个完整的光栅化流水线了。渲染数据：
复制链接

扫一扫