【hip程序的几个坑】

hip作为对标cuda的编程语言在开源社区较为活跃。不过因为架构问题,他也有一些坑的地方。在这里做一些总结。

半精度的使用

hip 中我们通过half和half2来使用半精度,half2并不能看作half[2]。如果想要获取half2的两个half值,需要使用__low2half()和__high2half()来获取。(不能使用.x和.y获取)

同时hip中没有__hmax和__hmax2函数,需要自己定义。示例如下:

__device__ half __hmax(half a, half b) {
    return __hgt(a, b) ? a : b;
}

__device__ half2 __hmax2(half2 a, half2 b) {
    half tmp1;
    half tmp2;
    tmp2 = __hgt(__high2half(a), __high2half(b)) ? __high2half(a) : __high2half(b);
    tmp1 = __hgt(__low2half(a), __low2half(b)) ? __low2half(a) : __low2half(b);
    return __halves2half2(tmp1, tmp2);
}

大概解释一下上述代码。__hgt(half a, half b) 函数等于 a > b, 最好使用这种比较的内置函数。__halves2half2(half a, half b) 表示将两个 half 合并,并输出。

warp指令的使用

warp指令用于在线程束中交换数据。AMD的线程束指令相比cuda有很大的限制。

  1. warp指令不能用于条件语句中。详见这里

  2. warp指令只能用于单精度。这是底层指令问题,没法解决。

warp的大小

在AMD上warp的大小一直是64(cuda为32),可是在最新的RDNA3架构中,warp的大小变为32。望注意!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值