首先我们知道着色器是GPU上面的小程序 他是运行在GPU上面的
而GPU的特点是高度并行的
SIMD
single instruction multiple data
一条运算指令在多个数据上执行 同时计算出结果
例如十六个线程执行的指令都是一样的 这样方便计算出多个顶点的变化
SIMT
single intruction multiple thread
与simd类似 但是可以处理指令的分支 但是会造成等待和压力
例如有16个线程 可以8个执行if 8个执行else
warp
GPU中并行执行的一组线程同城为一个warp
一个warp可以是16-64个线程
action mask
他的每一位代表当前warp中每一个线程在分支中是否需要执行
如果action mask所有值都是0 那就说明所有的线程都是执行其中一个分支 所以我们就不需要执行另一个分支了 这样执行效率就更高 如果action mask中有0也有1 则所有分支都可能被执行 也就是if和else的语句都需要被执行一遍 在SIMD中我们并不能一部分线程去执行if 一部分线程去执行else 所以就会导致warp执行速度会变慢 那么如果if和else都执行了 我们怎么知道取哪一个呢
在执行操作得到结果 将结果存入寄存器时 会有一个掩码判断操作 会决定那个结果将被存入寄存器中 那么没有存入的那部分就造成了空转 就造成了效率降低 所以我们要尽量避免写if和else
合并存储访问机制
就是每次从内存中读取32-128byte的连续内存块 称做transaction
如果当前warp读取的全部数据都落在一个transaction内 则只需要读取一次
本文探讨了GPU中的着色器如何利用SIMD(单指令多数据)和SIMT(单指令多线程)进行高度并行计算。SIMD在同一组数据上执行相同指令,而SIMT允许线程执行不同指令但可能导致等待。Warp是GPU中并行执行的线程组,行动掩码用于决定分支执行。优化GPU程序时,应避免过多的if-else结构以减少效率损失。此外,合并存储访问机制提高内存读取效率,确保连续内存块的高效读取。
734

被折叠的 条评论
为什么被折叠?



