unity计算着色器入门

最新推荐文章于 2024-06-12 18:19:33 发布

理塘顶针

最新推荐文章于 2024-06-12 18:19:33 发布

阅读量1.4k

点赞数

分类专栏： Unity3D

本文链接：https://blog.csdn.net/MaxLykoS/article/details/116989546

版权

本文介绍了Unity计算着色器的基础知识，包括定义、线程组设计和数据准备步骤。通过实现一个简单的计算着色器示例，讲解如何获取深度图、提交Buffer和进行硬件实例化。在C#代码中，展示了如何调度计算任务并获取结果，为高性能计算场景提供基础。

摘要由CSDN通过智能技术生成

1.定义

做实验需要使用高性能计算，因此翻出来学习一下用法。

计算着色器（Compute Shader简称CS）的用途就是并行计算，适用于算法简单但数量庞大的算法
应用场景：液体模拟，布料解算，聚落模拟等。

下面尝试做一个CS的demo

之前在yt上看到一个CS的应用，效果非常帅
在这里插入图片描述
使用类似于体素的方法来渲染一张“假”屏幕，相当于一个三维的屏幕，很有全息投影的既视感。

原理不难想，生成X*Y个Quad组成一张假屏幕方阵，使用两个摄像机，一个主摄像机用于正常观察，另一个摄像机用来渲染深度图，最后将深度图信息映射到假屏幕上，就可以得到最后的结果。

如果用CPU来算，就是给每一个Quad获取一个深度然后计算世界矩阵，最后渲染。

那么下面尝试用CS算

2. 线程组

在计算之前，首先要定义并行计算单元的排布。
在逻辑上，cells分为两层，第一层是结构为[X,Y,Z]的一堆Cells，第二层在以一堆Cells为一个Group之上抽象出好几个Group同时工作。
在这里插入图片描述
假如我们要计算32✖32即1024个Quad，可以这么设计
单个Group内[8, 8, 1]，一共4✖4个Group，加起来正好是1024个计算单元，对应着1024个数据。

黑色是数据量，红色是ThreadGroup，绿色是Thread
当然也可以分成其他的方式

3.数据准备

先不考虑shader怎么写，把数据准备做完先。
由于CPU和GPU的沟通方式类似于客户端和服务器，因此需要CPU整理数据，后将数据发送到GPU计算，最后CPU再Retrieve。所以如果CPU耽误时间，那就得GPU干等，反过来也一样。

3.1获取深度图

获取深度图的方式很多，我用了最方便的
重写深度摄像机的OnRenderImage，将Built-in渲染管线内的_CameraDepthTexturen通过一个后处理Shader拿出来。

Shader "Custom/DepthShader"
{
    Properties
    {
        //_MainTex ("Texture", 2D) = "white" {}
    }
    SubShader
    {
        // No culling or depth
        Cull Off ZWrite Off ZTest Always

        Pass
        {
            CGPROGRAM
            #pragma vertex vert
            #pragma fragment frag

            #include "UnityCG.cginc"

            struct appdata
            {
                float4 vertex : POSITION;
                float2 uv : TEXCOORD0;
            };

            struct v2f
            {
                float2 uv : TEXCOORD0;
                float4 vertex : SV_POSITION;
            };

            v2f vert (appdata v)
            {
                v2f o;
                o.vertex = UnityObjectToClipPos(v.vertex);
                o.uv = v.uv;
                return o;
            }

            //sampler2D _MainTex;
            sampler2D _CameraDepthTexture;

            fixed4 frag(v2f i) : SV_Target
            {
                float depth = SAMPLE_DEPTH_TEXTURE(_CameraDepthTexture, i.uv);
                float linearDepth = Linear01Depth(depth);
                return fixed4(linearDepth, linearDepth, linearDepth, 1.0);
            }
            ENDCG
        }
    }
}

3.2 提交Buffer

需要用到两种Buffer

ComputeBuffer，在CS里作为RWStructuredBuffer<>，支持泛型
RenderTexture，在CS里作为RWTexture2D<>，就是个纹理，深度纹理的话只需要一个float

提交的是RenderTexture深度图，返回ComputeBuffer，里面是计算完后的坐标。
具体API就不写了，最后全放后面了。

还有一个常量缓冲区，通过ComputeShader直接提交

3.3 硬件实例化

渲染1023个Cube在一个DrawCall里完成，可以加快速度。因为每一次DrawCall都牵扯到渲染状态的设置，就是D3D底层各种Bind的那一套，还有各种其他的加速原理。同一个网格最多一次渲染1023个，如果多余1023个，就再Draw一次。
api是Graphics.DrawMeshInstanced()
之前有在知乎看到文章比较unity网格渲染器和GraphicsAPI渲染的效率，的确是直接调渲染API速度快，因为网格渲染器做渲染时还要考虑排序，具体是啥，我不知道，可能是透明物体吧。
要支持硬件实例化，必须是网格不变，参数可变，Shader也要支持，除了在shader下面打个enable_Instancing的勾以外，要加很多宏。如果好奇宏底下是什么代码，建议查阅《Unity内建着色器源码剖析》。
好像DX12有什么支持可变形网格合批的黑科技，mark一下，以后再看。

Shader "Custom/UnlitShader"
{
    Properties
    {
        _Color ("Color", Color) = (1, 1, 1, 1)
    }

    SubShader
    {
        Tags { "RenderType"="Opaque" }
        LOD 100

        Pass
        {
            CGPROGRAM
            #pragma vertex vert
            #pragma fragment frag
            #pragma multi_compile_instancing
            #include "UnityCG.cginc"

            struct appdata
            {
                float4 vertex : POSITION;
                UNITY_VERTEX_INPUT_INSTANCE_ID
            };

            struct v2f
            {
                float4 vertex : SV_POSITION;
                UNITY_VERTEX_INPUT_INSTANCE_ID // necessary only if you want to access instanced properties in fragment Shader.
            };

            UNITY_INSTANCING_BUFFER_START(Props)
                UNITY_DEFINE_INSTANCED_PROP(float4, _Color)
            UNITY_INSTANCING_BUFFER_END(Props)

            v2f vert(appdata v)
            {
                v2f o;

                UNITY_SETUP_INSTANCE_ID(v);
                UNITY_TRANSFER_INSTANCE_ID(v, o); // necessary only if you want to access instanced properties in the fragment Shader.

                o.vertex = UnityObjectToClipPos(v.vertex);
                return o;
            }

            fixed4 frag(v2f i) : SV_Target
            {
                UNITY_SETUP_INSTANCE_ID(i); // necessary only if any instanced properties are going to be accessed in the fragment Shader.
                return UNITY_ACCESS_INSTANCED_PROP(Props, _Color);
            }
            ENDCG

最低0.47元/天解锁文章

理塘顶针

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
unity计算着色器入门

做实验需要使用高性能计算，因此翻出来学习一下用法。计算着色器（Compute Shader简称CS）的用途就是并行计算，适用于算法简单但数量庞大的算法应用场景：液体模拟，布料解算，聚落模拟等。下面尝试做一个CS的demo之前在yt上看到一个CS的应用，效果非常帅使用类似于体素的方法来渲染一张“假”屏幕，相当于一个三维的屏幕，很有全息投影的既视感。原理不难想，生成X*Y个Quad组成一张假屏幕方阵，使用两个摄像机，一个主摄像机用于正常观察，另一个摄像机用来渲染深度图，最后将深度图信息映射到假屏幕
复制链接

扫一扫

专栏目录