ViT相关

LuvMyLife

已于 2023-03-14 12:20:44 修改

阅读量385

点赞数

文章标签：计算机视觉 transformer Powered by 金山文档

于 2023-02-01 18:31:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/LuvLive/article/details/128838614

版权

关于patch size：

受ViT启发,patch size的粒度影响ViT的准确性和复杂度；使用细粒度的patch大小，ViT 可以执行得更好，但会导致更高的 FLOP 和内存消耗。例如，补丁大小为16*16的 ViT 比补丁大小为32*32的 ViT 性能表现高 6%，但前者需要多 4 倍的 FLOP。

关于改进：

ViT使用一系列embedding式的图像patch作为标准Transformer的输入，这是第一个与CNN模型性能相当的无卷积Transformer网络。然而，ViT需要非常大数据集，如ImageNet21K和JFT300M来进行预训练。之后的DeiT表明，数据增强和模型正则化可以在较少的数据下训练高性能的ViT模型。在此之后，ViT就逐渐成为了CV任务中的主流模型之一。

为何使用LayerNorm而不是BatchNorm：

注：BatchNorm对一个batch-size样本内的每个特征做归一化；LayerNorm是针对每个样本，对每个样本的所有特征做归一化。

Transformer是学习一个序列的特征，相似的有lstm等。倘若在模型中加入BatchNorm，那么假设我们输入的是一些句子，那BatchNorm是把每个句子的第一个词拿出来做normalization(batch方向做normalization)；而LayerNorm是把每句话的所有词拿出来normalization（通道方向做normalization）。词之间的信息是储存在同一个句子里的。因而用LayerNorm更合理。

对于ViT，它把图片打成patch块，当作token输入进去，所以也类似于NLP那边的BatchNorm。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ViT相关

something about vision transformer
复制链接

扫一扫

LuvMyLife CSDN认证博客专家 CSDN认证企业博客

码龄5年

32: 原创

9万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

437: 积分

607: 粉丝

40: 获赞

5: 评论

72: 收藏

私信

关注

热门文章

分类专栏

Prompt in CV 付费 10篇
cpp学习 1篇

最新评论

CoCoOp: Conditional Prompt Learning for Vision-Language Models
tiramirui: 我不是很理解batchsize为什么要设置成1 ，这个基于实例条件和batchsize有什么必然联系吗
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models
LuvMyLife: 代码应该是还没公开
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models
solex2: 请问有开源的代码吗？我在论文中没有发现
CoCoOp: Conditional Prompt Learning for Vision-Language Models
CSDN-Ada助手: 一定要坚持创作更多高质量博客哦, 小小红包, 以资鼓励, 更多创作活动请看: 上传ChatGPT/计算机论文等资源，瓜分￥5000元现金: https://blog.csdn.net/VIP_Assistant/article/details/130196121?utm_source=csdn_ai_ada_redpacket 生物识别技术能否成为应对安全挑战的绝佳选择？: https://activity.csdn.net/creatActivity?id=10411?utm_source=csdn_ai_ada_redpacket 新星计划2023: https://marketing.csdn.net/p/1738cda78d47b2ebb920916aab7c3584?utm_source=csdn_ai_ada_redpacket 全部创作活动: https://mp.csdn.net/mp_blog/manage/creative?utm_source=csdn_ai_ada_redpacket

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。