![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 91
ACuliflower
科研小白一枚,请多多指教~
展开
-
ViT-Adapter:Vision Transformer Adapter for Dense Predictions
作者将原使用特定的模型进行预训练并微调的训练方式,更改为了用ViT进行预训练,在微调阶段加入了Adapter,其中ViT-Adapter相当于先使用FPN学习多尺度的先验信息,并加入了Injector和Extractor,用来给ViT主干传递空间先验特征和从ViT中得到新的先验特征,最终该模型在语义分割方向取得了不错的效果。原创 2022-11-09 17:11:36 · 973 阅读 · 1 评论 -
DenseCLIP:Language-Guided Dense Prediction with Context-Aware Prompting
DenseCLIP将CLIP模型应用到了密集预测任务中,将原来的只使用image encoder进行预训练并在下游任务中微调,修改成了使用image encoder和text encoder进行预训练(CLIP),并在微调时,将text encoder的权重固定,只训练image encoder和image decoder中的权重。DenseCLIP成功的将文本信息运用到了图像的密集预测任务中。原创 2022-11-08 19:16:48 · 1377 阅读 · 0 评论 -
CoOp: Learning to Prompt for Vision-Language Models
CoOp将人工设置的Prompt,变为一个learnable prompt,并在CLIP上取得了很不错的效果。原创 2022-11-05 10:15:54 · 2372 阅读 · 1 评论 -
CLIP:Learning Transferable Visual Models From Natural Language Supervision
CLIP打破了原有的CV领域模型的设计思路,其一次训练得到的参数可应用到所有的分类任务当中,其使用了文本和图片的对应关系,在30多个数据集上效果相当于CNN网络中的Resnet50,并且迁移性强,鲁棒性好。原创 2022-11-04 18:43:21 · 734 阅读 · 0 评论 -
ViT:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale
ViT:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale原创 2022-11-03 21:44:56 · 644 阅读 · 0 评论 -
Transformer:Attention Is All You Need
Transformer的结构模型以及其具体细节。原创 2022-11-03 17:12:07 · 184 阅读 · 0 评论