全局内存:CPU和GPU都可以对它进行写操作。
合并访问: 隐藏内存延迟,如果对内存进行一对一连续对齐访问,则每个内存的访问地址可以合并起来,(例如4个字节单精度)一次就读warp32x4=128个字节,(可一起读32/64/128个字节)。
将cudaMalloc换成cudaMallocPitch即可分配到连续对齐的内存块。
cudaMallocPitch可填充行数字节至2的指数倍.
8位一个字节
1、知u8:u8表示道无符号char字符类型。
2、u16:u16表示无符号short短整数类型。
3、u32:u32表示无符号int基本整数类型。
4、int:int表示带符号int基本整数类型。
1、u8:u8的数据范围为0~+127[0~2^8-1]。
2、u16:u16的数据范围为0~+65535[0~2^16-1]。
3、u32:u32的数据范围为0+2147483647[02^32-1]。
4、int:int的数据范围为-2147483648~+2147483647[-2^31~2^31-1]。