深度学习
文章平均质量分 94
记录关于计算机视觉领域的论文心得
南北封魏晋.
一个读了物理学的人工智能小白
展开
-
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification
论文提出了一种在transformer模型中的动态令牌稀疏化框架,其目的对输入的token序列进行动态剪枝。作者设计了一个轻量级的预测网络,通过预测当前特征下每个令牌的重要性,对token序列进行相同比例的剪枝。作者将架构运用于DeiT和LV-ViT架构中,在精确率轻微降低的情况下大大降低了模型的计算量。原创 2023-01-05 22:05:05 · 558 阅读 · 0 评论 -
All Tokens Matter: Token Labeling for Training Better Vision Transformers
传统的ViT都是在一个额外的可训练的class token上聚集全局信息用作最后的分类,并用于该令牌计算分类损失,而作者提出了一种新的高性能视觉转换器,称为LV-ViT,其特点是将图像分类问题重新定义为多个令牌级识别问题,并为每个patch token分配由机器生成的单独的特定位置的监督。原创 2023-01-04 16:57:40 · 206 阅读 · 0 评论 -
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
为了使Transformer模型能适应自然语言处理领取与计算机视觉领取之间的差异,论文提出了一种新的计算机视觉的通用骨干,称为Swin Transformer,为了解决这些差异,作者提出了一种借助Shifted windows进行计算的分层级的Transformer模型。窗口移动方案通过限制自注意计算,提高了计算效率移窗方案通过将自注意计算限定在非重叠的局部窗口,同时允许跨窗口连接,从而提高了效率。原创 2023-01-01 00:44:56 · 184 阅读 · 0 评论