CNN具备的先验信息使得其可以使用更少的数据得到更好的模型:
1、局部性 Locality :
假设图片上相邻的区域会有相邻的特征,靠的越近的东西相关性越强。
2、平移等变性 Translation equivariance:
平移同变性 即f(g(x))=g(f(x)),f为卷积,g为平移
无论先做卷积还是平移,卷积核相当于模板,不论图片中同样的物体移到哪里,只要是同样的输入进来,遇到同样的卷积核,其输出永远是一样的
相比于Transformer的自注意力层self-attention layer 是全局性的。