【论文笔记】Vision Transformer for Small-Size Datasets

目录

创新点

架构

Shifted Patch Tokenization(SPT)

Locality Self-Attention(LSA)

总结

实验

写在最后


论文标题:Vision Transformer for Small-Size Datasets

论文链接:https://arxiv.org/abs/2112.13492

论文代码:https://github.com/aanna0701/SPT_LSA_ViT

发表时间:2021年12月

创新点

由于 ViT 的高性能源于使用大数据集进行预训练,并且其对大型数据集的依赖被解释为由于低局部归纳偏差,

因此本文提出 Shifted Patch Tokenization (SPT) 和 Locality Self-Attention (LSA) 有效的解决了该问题,

请注意,所提出的 SPT 和 LSA 可以很容易地以附加模块的形式应用于各种 ViT,而无需进行结构更改,并且可以有效地提高性能。

架构

Shifted Patch Tokenization(SPT)

SPT 在几个方向上对输入图像进行空间移位,并将它们与输入图像连接起来。如图是在四个对角线方向上移动的示例。接下来,像标准 ViT 一样应用补丁分区。然后,为了嵌入到视觉标记中,依次执行三个过程:补丁展平、层归一化和线性投影。因此,SPT 可以将更多的空间信息嵌入到视觉标记中,并增加 ViT 的局部归纳偏差。 

Locality Self-Attention(LSA)

一般来说,softmax 函数可以通过温度缩放来控制输出分布的平滑度。LSA 主要通过学习 softmax 函数的温度参数来锐化注意力分数的分布。此外,通过应用所谓的对角屏蔽来去除自标记关系,这会强制抑制由 Query 和 Key 计算的相似度矩阵的对角分量。这种掩蔽相对增加了不同 token 之间的注意力分数,使得注意力分数的分布更加清晰。结果,LSA 通过使 ViT 的注意力集中在局部来增加局部归纳偏差。

总结

softmax 的温度机制可以查看这篇文章:

(6条消息) SoftMax温度系数temperature parameter_VIEO-CSDN博客_softmax温度参数

实验

实验任务:当 SPT 和 SLA 应用于 ViT 时,捕捉对象形状效果

实验结果:应用 SPT 和 SLA 的 ViT 捕捉对象形状效果更好

实验任务:softmax 的温度参数对精度的影响

实验结果:高温会影响精度

实验任务:小型数据集上不同模型的Top-1精度比较。

实验结果:虽然基于 CIFAR10 的精度仍然是 ResNet-110 领先,但是应用 SL 的 ViT 架构,有着明显优势,是未来方向

实验任务:该方法在 ImageNet 数据集上的 Top-1 准确率 (%)。

实验结果:应用 SL 的 ViT 有明显的精度提高

实验任务:温度缩放和对角线掩蔽对整体性能的影响

实验结果:Tiny-ImageNet 中的可学习温度缩放和对角线掩蔽分别将性能提高了 +0.88% 和 +1.22%。 考虑到应用这两种技术的 LSA 显示出 +1.43% 的性能提升,我们可以声称每种技术的贡献都足够大,并且两种技术产生了协同作用。

写在最后

SPT 和 LSA 可以独立实现显着的性能提升,适用于任何 ViT。 因此,本研究证明 ViT 从零开始学习小规模数据集,为 ViT 进一步发展提供了机会。

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自γ星的赛亚人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值