OpengES中 GLSL优化要点_glsl优化if-CSDN博客

本文链接：https://blog.csdn.net/qq_35585843/article/details/130636428

本文整理一些日常积累的可以优化的方向

一.延迟vector计算

在进行float与vector计算的时候，可以先确定float再计算，不要多个float一起计算
如：

  highp float f0,f1;
  highp vec4 v0,v1;
  v0 = (v1 * f0) * f1;

优化为

  highp float f0,f1;
  highp vec4 v0,v1;
  V0 = v1 * (f0 * f1)

二.避免分支语句（if和个别for语句）

以OpenGL通常处理的图像来说，OpenGL的shader在运算的时候，会产生成千上万个线程来对不同的点位区域进行计算，每个线程都使用同一份shader代码、但是处理的数据不同。为了大幅度提高计算速度，OpenGL利用了GPU，而GPU的基本调度单位叫做wavefront（不同平台理念相同、叫法不同，NVIDIA平台叫warp，AMD平台叫wavefront等，下面统称为wavefront）。wavefront是一组线程的组合，既然称之为调度的基本单位，自然是GPU会同时处理属于同一个wavefront的所有线程，因为他们的计算指令（shader）从第一行到最后一行是完全相同的，只是数据不同而已。GPU正是这样通过single instruction multiple thread（SIMT）的方式来进行提速的。这有点类似于CPU中的SIMD加速，只不过CPU中一次SIMD操作只针对一组数据、需要人为编码控制，而GPU的SIMT是从始至终的用相同指令计算所有的线程数据。这样并行度极高，从而大幅提升了性能。

但是一旦引入if/for产生分支，wavefront结构就被完全破坏掉了，会产生diverged wavefront。例如原本4个线程组成一个wavefront一直同步计算，突然遇到if语句，3个线程if判断为true，进入A分支；另一个线程if判断为false，进入B分支，此时这4个线程接下来的指令不再相同，原来的这个线程组wavefront就无法同步计算、被迫分开，即为diverged wavefront。这时候，GPU只能分开执行这两个新产生的wavefront。由于GPU计算资源也是一定的，新产生的两个wavefront可能需要排队等待来顺序执行（原来是并行执行），尤其是wavefront大批量diverged的时候；然后新分割出来的wavefront如果要移动到其他GPU计算单元上还需要进行数据复制转移，也是很耗时的行为。这些都严重破坏了并行度，从而导致性能下降。因此，建议最好少使用产生分支的if语句；for语句有时候也会产生分支，也需要注意。

优化策略

用step方法或者其他的方法替换掉分支语句
step是阶跃函数，输入两个参数edge，x。如果edge > x返回0，否则返回1.
```
vec3 a;
if (b > 1)
{
	a = 1;
}
else
{
	a = 0.5;
}
```
替换为
```
vec3 a;
float temp = step(b, 1.0);
a =  1.0 - temp * 0.5;
```
如果不可避免进行分支操作，要先选择可以被优化的分支
编译器有时可以对分支进行一定的优化。If判断条件一般包含三种数据：

（1）静态分支：If判断语句仅仅包含常数；

（2）uniform数据分支：If判断语句仅仅包含常数或uniform参数；

（3）动态分支：其他情况，If判断语句中有动态变化的数据。

按道理来说，静态数据和uniform数据不会变化，编译器应该可以判断并进行编译优化，但是对于Android开发来说，硬件千差万别，目前据我了解，对于OpenGL ES 2.0，基本上大都只能优化静态分支；对于OpenGL ES 3.0，通常可以优化uniform数据分支，部分机型可能可以优化动态分支。

所以，写分支的时候注意分支的类型，并且如果升级到OpenGL ES 3.0，就基本可以使用uniform数据分支而没有明显的性能损失了。

同理，如果for循环的此时是一个整数、即常量，那么也不会产生分支；只有当for循环的次数也是随着点位的不同动态变化的时候才会产生分支。
相同区块情况可以使用分支
一般来说，相邻的点位区域的线程会组合在同一个wavefront中，如果一个分支与位置相关，例如图像上半部分都是黑色，下半部分是彩色；而If判断条件是颜色是否为黑色，那么大部分情况下同一个wavefront的线程都会在if判断后走同一个分支，这样wavefront就不会diverge。或者判断条件是和位置有关的，那么大概率也不会diverge。只要不产生diverge就不会对性能有很大影响。
全量代码，但保证某些分支不起作用
比如如下：
```
if (a == 0) {
	result = funcA();
} else {
	result = funcB();
}
```
可以替换为:
```
result = funcA();
result = funcB();
```
计算全部的函数，这样就避免了分支，很多情况下，全量执行所有分支的代码比使用If判断还要快，这个可以通过实际测试比较来进行选择。