2021-vit

最新推荐文章于 2023-12-01 22:01:03 发布

haizhi1234

最新推荐文章于 2023-12-01 22:01:03 发布

阅读量783

点赞数

分类专栏： cv-classification 文章标签： transformer 深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haizhi1234/article/details/124779289

版权

该博客探讨了如何将Transformer结构从自然语言处理（NLP）迁移到计算机视觉（CV），并进行了预训练和微调实验。论文指出，经过超大数据集预训练的Transformer模型在CV任务上表现出色，特别是在ImageNet-1K，ImageNet-21K和JFT等数据集上的预训练，然后在不同分辨率的下游任务上微调。实验结果显示，预训练数据集越大，Transformer模型的效果越好，特别是在ViT-B/16，ViT-L/16和ViT-H/14等不同规模的模型中。此外，研究还涉及了Transformer与CNN混合架构的比较，并展示了模型的参数和性能指标。

摘要由CSDN通过智能技术生成

论文链接

链接：https://pan.baidu.com/s/1_EFbxCyyT_MwYxeySu6KDA?pwd=w99o
提取码：w99o

问题/目的

将transformer从nlp迁移至cv。

结论

将transformer结构先进行超大数据集预训练，然后迁移至相关cv任务，效果很好。
越大的vit模型配合越大的预训练数据集，效果越好。

创新点

1、网络结构

将H×W×C的图片拆分成N个P×P×C个patches，N=H×W/P^2。使用一种可训练映射方式将小块flattern到D个，D为Transfomer的每层向量大小（这一条尚未完全理解）。

embedding预留第一位z00代表类别。pretrain和fine-tuning时，zl0会接一个分类head（pretrain时为一层的mlp，fine-tuning时为一层全连接）。

输入还包含一个一维的position embeddings（二维在实验中未见收益）。patches和position embeddings共同作为encoder输入。

vit的block由MSA和MLP组成。每个block前方

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

haizhi1234 CSDN认证博客专家 CSDN认证企业博客

码龄7年

3: 原创

49万+: 周排名

179万+: 总排名

3355: 访问

: 等级

30: 积分

0: 粉丝

0: 获赞

1: 评论

2: 收藏

私信

关注

热门文章

分类专栏

最新评论

2021-mae
CSDN-Ada助手: 非常感谢CSDN博主分享的“2021-mae”技术文章，我觉得对于想要了解最新技术趋势的用户来说，这篇博客非常有价值。下一篇博客可以考虑写关于“AI技术在医疗行业的应用”，这是一个热门话题，也是很多读者关注的领域。相信你的专业知识和经验可以为读者带来更多的启发和思考。期待看到更多优质的技术博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。