最近在弄ssd的过程中发现图像预处理函数transformer.preprocess(‘data’, image)很慢,1920 * 1080的图片经过预处理要0.1s左右的时间,无法满足实时处理的要求,故花了点时间琢磨了下preprocess背后的原理。
transformer.preprocess本质上和cv2.resize是一样的,这里的目的是将图像缩小为特定的大小,例如300*300。
了解了这个就好办了,transformer.preprocess将图像从1080 * 1920 * 3的格式转为3 * 300 * 300,即从H,W,C转为C,H,W,并缩小大小,颜色也从RGB转为BGR(所以用cv2读取的图像可以省去转通道这一步骤),并减去均值。
一开始我以为均值是127.5,几经试验发现值的大小有差距,故深入到caffe的源码中去看,发现caffe的源码中均值为[[[104]],[[116]],[[122]]],接下来就直接代入减去即可。
caffe源码中preprocess的resize插值方式为线性插值,故cv2.resize也采用线性插值。
伸手党的福利环节:
transformed_image = (cv2.resize(src=image.astype('float32'), dsize=(300, 300),
interpolation=cv2.INTER_LINEAR)).swapaxes(0, 2).swapaxes(1, 2) - transformer.mean['data']
net.blobs['data'].data[...] = transformed_image
耗费时间可以说是大大缩短了,从0.1s变为10ms,如果不是对输入图像image进行了格式上的转换,从int转为float32,可能连1ms都不需要。从效果上看,还都是一样的。