前言
上一篇博客讲到了如何开始在caffe上训练训练MobileNet,但是训练速度特别慢,后来发现是caffe里没有Depthwise Convolution,实现的时候是利用Group Convolution,令group和chanel数相等,就是Xception
中所用到的,每个group
都只负责一个channel
,这样也实现了Depthwise Convolution,但是当group数特别大的时候,速度就非常慢。
yonghenglh6基于cuda kernel
的重新实现的Depthwise_conv
,可以极快的加快网络的速度。之前训练100iter
需要280s,现在只需要28s,将近加快了10倍。
Usage
将dw-conv文件夹中
的