1 RGB vs RGBA
每个RGB像素点包含3个byte, GPU线程基于int格式载入,每次载入4个字节, 计算公式如下:
32 X 3 = 96 96 / 4 = 24
所以建议block(16, 16), grid(16 + 8, 16), shareMemory每次载入24个int 数据,相当于32个像素
gray = 0.3f * red + 0.59f * green + 0.11f * blue;
2 transpose GPU
连续读2分离写,性能应该有优化空间