优化shader程序的一些tips

最新推荐文章于 2024-07-28 08:47:58 发布

leonwei

最新推荐文章于 2024-07-28 08:47:58 发布

阅读量7.4k

点赞数 6

分类专栏：图形学/3D技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/leonwei/article/details/55519588

版权

图形学/3D技术专栏收录该内容

18 篇文章 16 订阅

订阅专栏

在写shader的时候，其实一些写法对于其执行影响非常大，而且由于gpu和cpu在架构上的不同，代码的优化思想也不一样，最近一直在写几个shader，为了性能问题，查阅了很多资料，把一些tips总结下来。

首先要树立几个思想：

1.gpu是SIMD的架构，即单指令多数据流架构，即在gpu上同时执行n个数据和执行1个数据的效率是一样的，我们要

尽量的把并行的计算搬到gpu上

2.gpu是以向量计算为基础设计的，也就是说在gpu上执行一个向量乘法和执行一个float的乘法的效率是一样的，

并不向cpu那样要多执行几次

所以

1.尽量把一些计算合并成向量计算，记住一个向量计算和一个float计算那样快！

比如

float x,y;

x = x * a;

y = y * b;

不如写成 float2 v = float2(x,y);

v = v*float2(a,b);

因为前一种写法是两次乘法计算，而后一种只要1次

2.不要在gpu里面用分支或者条件判断这种语句，尽管大多数gpu 的shader支持这种语法，但是多数gpu里面的

这种控制语句涉及到一些同步等消耗的操作，其实大多数这种语句都可以用数值的方式替代。

比如你想写

float4 a;
if(b > 1)
{
 a.a=1;
}
else
{
 a.a =0.5;
}

可以改写成

float4 a;
float tmp = step(b,1);
a = tmp * 0.5 + (1-tmp);

if else可以被step出来的0 或1的乘法代替又比如

float4 a;
if(b && c || d && e)
{
 a.a = 1;
}
else
{
 a.a = 0.5;
}

可以写成

float4 a;
float tmp = step(1, (float)b*(float)c + float(d)*float(e));
a = tmp + (1-tmp) * 0.5;

&& 我们用转换到float后的乘法代替，||可以被判断加法step 1代替

而这种操作，尤其是shader内置的函数比条件判断和分支的效率要高很多，别忘了，GPU纯粹是为了计算的，而不是

做判断

3.尽量使用shader为我们提供的内置函数，这些内置的函数比我们想象的要快很多，往往应用了某些gpu的特殊

特性。

比如要比较a和b谁大用max（a,b）,还有例如上面反复用的step，虽然你可以写用(float)(a>=1)来替换step（1，a）,

但是这还是没有内置函数更快的，包括常用的saturate（）把一个数归到0-1,总之一句话，如果能用一个内置函数替换

你的某些代码，就尽量替换。而且这些内置函数基本上都是支持对向量操作的，所以如果用step（a,fixed3(1,2,3)）其

实只是一条指令，但是却可以同时返回用a同1 2 3分别比较的结果。

4.使用swizzle是非常快的，例float4 a = float4(1,1,1,1)，用a.wz = float2(2，3）要比 a.w=3; a.z=2要高效很多

5.使用合适的数据类型，大部分gpu支持f的数值类型基本上分为fixed half float，分别是12位的定点数，16位的浮

点数以及32位的浮点数，尽可能的选择位数更少的数据类型来加快操作

关注

6
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

leonwei

CSDN认证博客专家 CSDN认证企业博客

码龄17年

125: 原创

6642: 周排名

219万+: 总排名

146万+: 访问

: 等级

9862: 积分

3022: 粉丝

627: 获赞

206: 评论

1062: 收藏

私信

关注

热门文章

分类专栏

最新评论

从gles，vulkan到metal（二）-- 同步和内存
Never~~Mind: 感谢分享！关于Subpass，我一直有这样的疑问:1个Renderpass里有5个Subpass，如果变成5个Renderpass每个Pass只包含1个Subpass，然后通过Barrier来做RT的同步。这种方式是否也是可行的？如果这种方式可行的话，在一般情况下是否可以不考虑Subpass，而只在特定情况（如UE的单 Pass 机制下）才做考虑？
Vulkan下多线程渲染设计
leonwei: 这取决于你的应用瓶颈在哪里很多大型场景的drawcall量较高，瓶颈在API调用这一块的话，可以启用两个线程
Vulkan下多线程渲染设计
SkySnowc: 引用「1.1-1.3的线程上都使用的secondary cmd buffer，他们填充好后，交给1线程的p」移动端，高端手机最多才有四个大核，为了多个编码进行多个线程的开启，得不偿失。如果放到异步的tDoTask中进行并行提交，是否是更合理一些。单纯的为了编码效率，开启多个线程并行，会令手机性能不增反降的
Vulkan下多线程渲染设计
SkySnowc: 引用「cmdbuffer在当前帧record，在下一帧submit」 Vulkan提供了两种方式，一种是Compile，一种是Submit； Compile是需等待GPU执行完，Submit是不会等待GPU执行完的吧
UE高级性能剖析技术（1）-- RHI线程（渲染提交)
朱大星: 资源加载的这个问题有想办法解决吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。