cudnn之Partially-packed Tensors

cudnn 的 nd tensor的内存排列形式有 Fully-packed Tensors、Partially-packed Tensors、Spatially Packed Tensors、Overlapping Tensors这4种,本文讲Partially-packed Tensors。
Partially-packed Tensors就是地址长度大于值的个数,举个例子,一个float32数组a[3][2][2],stride为[5,2,1],那么此数组在device上占用的内存应为sizeof(float32)35,值的个数为12,占用的内存却为15,也就是取值或者存值不连续。
cudnn的输入和输出都可以是 Fully-packed Tensors,输入好理解,按照步长去指定地址取值进行计算就对了,但输出呢?实际上,输出内存中多出来的内存没有进行操作,初始值是啥就是啥,一般用cudaMemSet为0值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值