![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
VIT
飞花穿庭
这个作者很懒,什么都没留下…
展开
-
Early Convolutions Help Transformers See Better
Early Convolutions Help Transformers See Better Abstract VIT优化较为困难,对参数选择比较敏感。 网络 传统多层3*3conv,每层后加BN、ReLU,到encoder前时控制与原ViT输入相同 虽然ViT论文中也有这种结构,但论文中说明这种结构的分数是要略微逊色的,但这篇论文证明了这种结构可以更容易优化。 实验结果 用CNN代替patch结构会使: 收敛更快 不再局限于SGD(SGC和AdamW的差距较小) 对超参数不那么敏感 weigh原创 2022-05-02 14:36:25 · 805 阅读 · 0 评论 -
An IMage Is Worth 16 X 16 Words (VIT)
An IMage Is Worth 16 X 16 Words (VIT): 1. 网络 1.1 emb层 每张图N个patch,将patch flatten成一维 将每个patch的维度用线性层升到D维,这层叫patch embeddings 开始加cls, 每个emb要加pos_emb E是linear pro 1.2 剩下部分 MSA是multiheaded self- attention LN - layer-norm MLP激活函数是GELU 每层都加了残差的 1.3 wo原创 2022-05-01 00:04:13 · 158 阅读 · 0 评论