![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 96
小小小绿叶
这个作者很懒,什么都没留下…
展开
-
一文读懂Swin-Transformer
Swin Transformer是2021年微软亚洲研究院发表在ICCV(ICCV 2021 best paper)上的一篇文章。Swin Transformer是继ViT之后,Transformer模型在视觉领域的又一次碰撞。该论文一经发表就已在多项视觉任务中霸榜,值得大家仔细研读。Swin Transformer可能是CNN的完美替代方案。原创 2023-09-09 10:31:51 · 1345 阅读 · 0 评论 -
一文看懂DETR(二)
1.输入图像经过CNN的backbone获得32倍下采样的深度特征;2.将图片给拉直形成token,并添加位置编码送入encoder中;3.将encoder的输出以及Object Query作为decoder的输入得到解码特征;4.将解码后的特征传入FFN得到预测特征;5.根据预测特征计算cost matrix,并由匈牙利算法匹配GT,获得正负样本;6.根据正负样本计算分类与回归loss。原创 2023-08-31 19:55:56 · 503 阅读 · 0 评论 -
一文看懂DETR(一)
DETR是Meta AI研究院提出的CV通用框架,论文中将其应用于目标检测与全景分割。DETR舍弃了以往一阶段,二阶段检测模型的先验trick,比如anchor的设置,nms极大值抑制,也没有多尺度特征融合(由于Swin transformer在其后发表)以及复杂的数据增强,其整个pipeline简洁,直观,得到后人称赞并应用于cv各个task中。总结来说,DETR将目标检测任务(分类与回归)看作集合预测问题。原创 2023-08-31 09:24:01 · 983 阅读 · 0 评论 -
一文看懂Vision Transformer(VIT)
Transformer早在2020年就在NLP领域大放异彩,并通过BERT等无监督预训练技术将NLP推上一个新的高度。VIT受其启发,尝试将Transformer应用到CV领域,并通过JFT数据预训练,在ImageNet1K上能够达到88.55%的准确率。如今,Transformer在CV,NLP,多模态等领域均已达到最先进水平,值得大家学习并应用于工作中。接下来的时间,将记录我在CV领域大模型的学习历程,欢迎大家一起讨论,互相学习。原创 2023-08-23 11:25:19 · 582 阅读 · 0 评论