Visual Transformer

最新推荐文章于 2023-12-31 23:50:53 发布

WadeQyx

最新推荐文章于 2023-12-31 23:50:53 发布

阅读量385

点赞数

分类专栏： Vision Transformer 文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43390051/article/details/117482460

版权

Vision Transformer 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Deformable DETR

Motivation

DETR对于小物体的检测能力较差。现代的目标检测器用高像素的图像来检测小物体，但是使用高像素图像会导致DETR中encoder的计算复杂度增高。 $O(size^{3})$
DETR需要更多的训练轮次来收敛，收敛速度较慢。For example，在训练初始，cross-attention模块在整个特征图谱上都作attention，而在训练快结束时，注意力图谱已经被学习得非常稀疏，仅仅关注物体存在的部分。DETR需要训练很久来得到这么大的变化。

Deformable Attention Module

主要存在的问题：

The core issue of applying Transformer attention on image feature maps is that it would look over all possible spatial locations.

而Deformable Attention Module

Only attends to a small set of key sampling points around a reference point.

即对于每个query，只在关键点附近采样固定数量的keys

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Visual Transformer

Deformable DETRMotivationDETR对于小物体的检测能力较差。现代的目标检测器用高像素的图像来检测小物体，但是使用高像素图像会导致DETR中encoder的计算复杂度增高。O(size3)O(size^{3})O(size3)DETR需要更多的训练轮次来收敛，收敛速度较慢。For example，在训练初始，cross-attention模块在整个特征图谱上都作attention，而在训练快结束时，注意力图谱已经被学习得非常稀疏，仅仅关注物体存在的部分。DETR需要训练很久来得
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。