【论文笔记】Vision Transformer for Small-Size Datasets

来自γ星的赛亚人

已于 2022-03-09 12:29:30 修改

阅读量3.1k

点赞数 3

分类专栏：论文笔记 Vision Transformer 文章标签： transformer 深度学习人工智能

于 2022-03-09 12:28:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_58678659/article/details/123371128

版权

论文笔记同时被 2 个专栏收录

47 篇文章 7 订阅

订阅专栏

Vision Transformer

19 篇文章 12 订阅

订阅专栏

目录

Shifted Patch Tokenization（SPT）

Locality Self-Attention（LSA）

论文标题：Vision Transformer for Small-Size Datasets

论文链接：https://arxiv.org/abs/2112.13492

论文代码：https://github.com/aanna0701/SPT_LSA_ViT

发表时间：2021年12月

创新点

由于 ViT 的高性能源于使用大数据集进行预训练，并且其对大型数据集的依赖被解释为由于低局部归纳偏差，

因此本文提出 Shifted Patch Tokenization (SPT) 和 Locality Self-Attention (LSA) 有效的解决了该问题，

请注意，所提出的 SPT 和 LSA 可以很容易地以附加模块的形式应用于各种 ViT，而无需进行结构更改，并且可以有效地提高性能。

架构

Shifted Patch Tokenization（SPT）

SPT 在几个方向上对输入图像进行空间移位，并将它们与输入图像连接起来。如图是在四个对角线方向上移动的示例。接下来，像标准 ViT 一样应用补丁分区。然后，为了嵌入到视觉标记中，依次执行三个过程：补丁展平、层归一化和线性投影。因此，SPT 可以将更多的空间信息嵌入到视觉标记中，并增加 ViT 的局部归纳偏差。

Locality Self-Attention（LSA）

一般来说，softmax 函数可以通过温度缩放来控制输出分布的平滑度。LSA 主要通过学习 softmax 函数的温度参数来锐化注意力分数的分布。此外，通过应用所谓的对角屏蔽来去除自标记关系，这会强制抑制由 Query 和 Key 计算的相似度矩阵的对角分量。这种掩蔽相对增加了不同 token 之间的注意力分数，使得注意力分数的分布更加清晰。结果，LSA 通过使 ViT 的注意力集中在局部来增加局部归纳偏差。

总结

softmax 的温度机制可以查看这篇文章：

(6条消息) SoftMax温度系数temperature parameter_VIEO-CSDN博客_softmax温度参数

实验

实验任务：当 SPT 和 SLA 应用于 ViT 时，捕捉对象形状效果

实验结果：应用 SPT 和 SLA 的 ViT 捕捉对象形状效果更好

实验任务：softmax 的温度参数对精度的影响

实验结果：高温会影响精度

实验任务：小型数据集上不同模型的Top-1精度比较。

实验结果：虽然基于 CIFAR10 的精度仍然是 ResNet-110 领先，但是应用 SL 的 ViT 架构，有着明显优势，是未来方向

实验任务：该方法在 ImageNet 数据集上的 Top-1 准确率 (%)。

实验结果：应用 SL 的 ViT 有明显的精度提高

实验任务：温度缩放和对角线掩蔽对整体性能的影响

实验结果：Tiny-ImageNet 中的可学习温度缩放和对角线掩蔽分别将性能提高了 +0.88% 和 +1.22%。考虑到应用这两种技术的 LSA 显示出 +1.43% 的性能提升，我们可以声称每种技术的贡献都足够大，并且两种技术产生了协同作用。

写在最后

SPT 和 LSA 可以独立实现显着的性能提升，适用于任何 ViT。因此，本研究证明 ViT 从零开始学习小规模数据集，为 ViT 进一步发展提供了机会。

来自γ星的赛亚人

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
【论文笔记】Vision Transformer for Small-Size Datasets

论文标题：Vision Transformer for Small-Size Datasets论文链接：https://arxiv.org/abs/2112.13492论文代码：https://github.com/aanna0701/SPT_LSA_ViT发表时间：2021年12月创新点由于 ViT 的高性能源于使用大数据集进行预训练，并且其对大型数据集的依赖被解释为由于低局部归纳偏差，因此本文提出 Shifted Patch Tokenization (SPT) 和Loca...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

来自γ星的赛亚人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。