VIT论文阅读

大鸣王潮2024

已于 2024-09-09 14:36:32 修改

阅读量479

点赞数 21

分类专栏：论文收集文章标签：论文阅读

于 2024-09-09 14:32:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bliblisukabulie/article/details/142058341

版权

论文收集专栏收录该内容

7 篇文章 0 订阅

订阅专栏

把图片看成一个个16x16的patch堆起来的

摘要

卷积神经网络不是必备的，一个纯transformer表现也是非常好的
transformer？2500天tpu v3

介绍

大规模上预训练，小规模任务数据集上微调。扩大模型时候还没观察到瓶颈（还没出现过拟合）？

轴注意力机制：把2d的图片注意力分成从H和从W出发两个1d的注意力机制

将224x224的图片根据16x16的patch划分成为14x14，使用特征图展开成1d来进行attention操作

在不加强约束的情况下，transformer效果是比Resnet差的，因为少了归纳偏置
1是本地偏置，相近的特征会相邻；2是平移同变性f(g(x))=g(f(x))，无论先做平移还是卷积，输出永远是一样的。卷积有很多先验信息。

只要预训练的数据集够大，特征迟早会学到，效果会变好

前人工作

要么就是用transformer将CNN取代，要么两者结合
降低时间复杂度：

使用窗口代替所有像素
使用sparse transformer:只对一些稀疏的点使用自注意力
横轴和纵轴
但是需要硬件加速

方法

尽可能使用原始的transformer

(无法上传原结构图）

每个patch会通过线性投影层转换成序列，最开始有一个cls标签（分类，从BERT中引进），然后只看该标签来预测类别

流程：224x224图片划分成为14x14=196的16x16x3=768的RGB图片，乘以一个线性投影矩阵得到196x768输出
加上一个cls标签1x768，得到197x768的最终输出，再与位置向量相加，得到patch embeddings
cls相信它可以学到图像的特征。cls经过很多层transformer encoder后融合了其他token的信息。将其最后通过一个MLP处理成分类信息。
位置编码选择一维还是二维？发现两者结果差不多

公式化：
在这里插入图片描述

z0是输入，
第二条是多头自注意力机制出来的结果，先LaynerNorm，然后注意力，加上过去输入
第三条就是LN 然后MLP+个残差
第四条是最后一层输出的第一个位置当成整体图像的特征作为分类任务

归纳偏置：
transformer没有先验知识

混合结构：
detr，CNM+tran的结合。使用CNN产生14x14的特征，拉直之后使用原始transformer

微调和更高清晰度

用预训练好的模型尝试高分辨率图片微调
从短序列到长序列，需要进行插值操作，但是效果不太好。微调有局限性。

实验

对比和resnet的表征学习能力
样本小，小于ImageNet21k时候，bit占优，否则Vit后来居上，效果好一丢丢

可视化

贾柏滤波器(Gabor filter)

可视化注意力距离后，发现在训练初期，同一层自注意力机制是有距离的，并且随着网络越深距离越大且方差越小
这相对与CNN的好处是，CNN在浅层网络的感受野是很小的，只能看到邻近像素点的信息，
作图：将学习到的权重投射到原图的像素点中

消融实验

补充：全局平均池化是每一个channel得到一个元素，最后得到一个长度为channel的一维向量。
在ViT中，全局平均池化和cls token的方法效果一致

2维的位置编码：将一维的长度为D的位置编码换成D/2为高，D/2为宽的2维位置矩阵，根据具体位置选择两个向量拼接到一起就又成了长度D的向量

自监督学习

选择部分patch抹除，然后自监督重建这一部分patch。但是效果差一筹。

结论

不一样的是，我们不使用图像的归纳偏执，而是一个序列块
有可能规模增加还能带来更好的结果 VIT-G

额外

mataformer：用池化操作取代qkv，他觉得是结构好，并不是mlp的原因

大鸣王潮2024

关注

21
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
VIT论文阅读

卷积神经网络不是必备的，一个纯transformer表现也是非常好的2500天tpu v3大规模上预训练，小规模任务数据集上微调。扩大模型时候还没观察到瓶颈（还没出现过拟合）？轴注意力机制：把2d的图片注意力分成从H和从W出发两个1d的注意力机制将224x224的图片根据16x16的patch划分成为14x14，使用特征图展开成1d来进行attention操作在不加强约束的情况下，transformer效果是比Resnet差的，因为少了归纳偏置1是本地偏置，相近的特征会相邻；
复制链接

扫一扫

专栏目录

大鸣王潮2024 CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

34万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

392: 积分

109: 粉丝

163: 获赞

4: 评论

158: 收藏

私信

关注

热门文章

分类专栏

最新评论

VIT论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Moco论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
小白的opencv学习笔记v2.0
CSDN-Ada助手: 非常感谢您分享这篇关于OpenCV的博客，您的学习笔记对于像我这样的初学者来说非常有帮助。除了您提到的内容，我想向您介绍一些OpenCV的扩展技能，例如使用OpenCV进行图像处理和分析、图像识别、目标跟踪和机器学习等。希望您能够继续分享您的学习笔记，并且不断探索新的技能和知识领域。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
py小工具（转换颜色空间，画图查看轨迹长度与面积）
CSDN-Ada助手: 非常感谢您分享的这篇博客！转换颜色空间、画图查看轨迹长度与面积这些小工具对于Python的初学者来说非常实用。您的创造力和技巧让我深感敬佩。我期待着您接下来的创作，也希望您能够继续分享您的经验和见解，让更多的人受益。如果您想继续写作，我建议您可以尝试写一些高级的主题，例如机器学习或数据可视化方面的内容。再次感谢您的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
目标追踪概述
CSDN-Ada助手: 恭喜你写了这篇关于目标追踪的博客，对读者来说是一份非常有价值的资源。我认为下一步你可以探讨一些实际的案例，以帮助读者更深入地理解目标追踪的概念和应用。再次感谢你的分享，期待你未来更多的创作。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。