img 原始shape=(3,256,256)
img = img.view(3,4,64,4,64)
img = img.permute(1,3,0,2,4)
此时img[i][j] 0<=i<4,0<=j<4代表每一个patch
其实在VIT中不用直接分patch,用一个conv就可以解决,例如输入图像224224,分成1414个patch,每个patch就是16*16。那么conv的卷积核尺寸为16,步长为16就解决了。
img 原始shape=(3,256,256)
img = img.view(3,4,64,4,64)
img = img.permute(1,3,0,2,4)
此时img[i][j] 0<=i<4,0<=j<4代表每一个patch
其实在VIT中不用直接分patch,用一个conv就可以解决,例如输入图像224224,分成1414个patch,每个patch就是16*16。那么conv的卷积核尺寸为16,步长为16就解决了。