目录
Shifted Patch Tokenization(SPT)
论文标题:Vision Transformer for Small-Size Datasets
论文链接:https://arxiv.org/abs/2112.13492
论文代码:https://github.com/aanna0701/SPT_LSA_ViT
发表时间:2021年12月
创新点
由于 ViT 的高性能源于使用大数据集进行预训练,并且其对大型数据集的依赖被解释为由于低局部归纳偏差,
因此本文提出 Shifted Patch Tokenization (SPT) 和 Locality Self-Attention (LSA) 有效的解决了该问题,
请注意,所提出的 SPT 和 LSA 可以很容易地以附加模块的形式应用于各种 ViT,而无需进行结构更改,并且可以有效地提高性能。
架构
Shifted Patch Tokenization(SPT)
SPT 在几个方向上对输入图像进行空间移位,并将它们与输入图像连接起来。如图是在四个对角线方向上移动的示例。接下来,像标准 ViT 一样应用补丁分区。然后,为了嵌入到视觉标记中,依次执行三个过程:补丁展平、层归一化和线性投影。因此,SPT 可以将更多的空间信息嵌入到视觉标记中,并增加 ViT 的局部归纳偏差。
Locality Self-Attention(LSA)
一般来说,softmax 函数可以通过温度缩放来控制输出分布的平滑度。LSA 主要通过学习 softmax 函数的温度参数来锐化注意力分数的分布。此外,通过应用所谓的对角屏蔽来去除自标记关系,这会强制抑制由 Query 和 Key 计算的相似度矩阵的对角分量。这种掩蔽相对增加了不同 token 之间的注意力分数,使得注意力分数的分布更加清晰。结果,LSA 通过使 ViT 的注意力集中在局部来增加局部归纳偏差。
总结
softmax 的温度机制可以查看这篇文章:
(6条消息) SoftMax温度系数temperature parameter_VIEO-CSDN博客_softmax温度参数
实验
实验任务:当 SPT 和 SLA 应用于 ViT 时,捕捉对象形状效果
实验结果:应用 SPT 和 SLA 的 ViT 捕捉对象形状效果更好
实验任务:softmax 的温度参数对精度的影响
实验结果:高温会影响精度
实验任务:小型数据集上不同模型的Top-1精度比较。
实验结果:虽然基于 CIFAR10 的精度仍然是 ResNet-110 领先,但是应用 SL 的 ViT 架构,有着明显优势,是未来方向
实验任务:该方法在 ImageNet 数据集上的 Top-1 准确率 (%)。
实验结果:应用 SL 的 ViT 有明显的精度提高
实验任务:温度缩放和对角线掩蔽对整体性能的影响
实验结果:Tiny-ImageNet 中的可学习温度缩放和对角线掩蔽分别将性能提高了 +0.88% 和 +1.22%。 考虑到应用这两种技术的 LSA 显示出 +1.43% 的性能提升,我们可以声称每种技术的贡献都足够大,并且两种技术产生了协同作用。
写在最后
SPT 和 LSA 可以独立实现显着的性能提升,适用于任何 ViT。 因此,本研究证明 ViT 从零开始学习小规模数据集,为 ViT 进一步发展提供了机会。