CNN并不能识别同样的目标,而目标在图片里不同的大小。 所以spatial transformer将目标识别出来,进行旋转、缩放、平移,能够让CNN识别出来 经过spatial transformer层所对应的 P34 (选修)To Learn More - Spatial Transformer Layer 32:55