DL-Paper精读：DeiT

最新推荐文章于 2023-08-17 16:23:02 发布

星月野

最新推荐文章于 2023-08-17 16:23:02 发布

阅读量236

点赞数

分类专栏： paper阅读文章标签：人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/li6016265/article/details/114156493

版权

Training data-efficient image transformersa& distillation through attention

https://arxiv.org/abs/2012.12877

Background

Transformer在CV领域已呈席卷之势滚滚而来~

Related work and the limit

ViT(Vision Transformer)对二维图像进行切片并序列化作为输入，将NLP中的Transformer结构直接引入图像分类任务中，取得了SOTA的精度（可怕的88.7%~）。然而，ViT的训练却让大部分人只能望而却步。ViT选择采用超大数据集进行预训练，然后再迁移到下游任务的训练流程，对训练数据的大小，服务器等资源配比的要求极高。（在ViT中，直接在ImageNet上进行训练精度并不具备优势：”do not generalize well when trained on insufficient amounts of data”。）

Novel Points

本文针对于ViT不能直接在ImageNet上进行训练的问题进行了研究并解决了该问题（即data-efficient training）
同时，提出了一种对Transformer结构进行蒸馏的可行方案。

Methodology

Data-efficient training. 先/(ㄒoㄒ)/~~一个，没有改结构，没有新的trick，就是一模一样的ViT结构&#

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
DL-Paper精读：DeiT

Training data-efficient image transformersa& distillation through attentionhttps://arxiv.org/abs/2012.12877BackgroundTransformer在CV领域已呈席卷之势滚滚而来~Related work and the limitViT(Vision Transformer)对二维图像进行切片并序列化作为输入，将NLP中的Transformer结构直接引入图像分类任务中，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。