最近,在看alexnet,vgg,googlenet的论文时,对于论文中training和testing的时候对于image的处理,做一下总结。(其中有些困惑,可能理解不到位,还望指出)
training
我们知道对于cnn而言,输入的数据大小是必须相同的,而对于imagenet中的数据集而言,大小不一,因此一般先rescale成一个固定大小比如256*256,然后再从这256*256的图片中crop成一个固定大小比如224*224,因此最原始的图片-》rescale-》crop最后变成了统一大小的输入,
但是在rescale的时候,alexnet采用全都rescale成256*256大小,而在vgg中,采用了三种模式,一种是全都rescale成一个大小,一种是rescale成几个固定大小,还有一种是rescale成一个范围[Smin,Smax]的不同大小,实验表明最后一种效果更好,因为,rescale成不同大小后,再crop的时候,能够取得不同粒度不同角度下的这张图片,更加准确。
testing
在testing的时候
alexn