使用composer进行算子优化的测试笔记

我们在RTX_2080_Ti上测试了ChannelsLast优化的效果,测试结果是完全没有效果、而且反而时间会增大;也在Slack上咨询了一下MosaicML的开发者,
测试记录:
第一次在Colab测试时,他们回复说:

Daya Khudia: The gpu used with colab is Tesla K80 (torch.cuda.get_device_name(0)) and channels_last is helpful on GPUs with tensor cores (i.e., Volta or newer).

也就是说,只有在Volta以上架构的GPU上apply_channels_last()才会有效果;
第二次在RTX_2080_Ti上测试,

Daya Khudia: I tried this on NVIDIA GeForce RTX 3080 and it seems channels_last is slower for this model. This model uses mostly depthwise and pointwise (1x1) convolutions and channels_last doesn’t always perform better than non-channels last.
This model takes 22 secs for the train part without channels_last and 35 secs with channels_last.
One of the individual 1x1 conv takes .17 ms without channels_last and .40 ms with channels_last so definitely 1x1 convs are slower with channels_last.

其实就是对shufflenet_v2_x1_0完全没有加速效果

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值