TOD
文章平均质量分 93
小小小~
人工智能爱好者
展开
-
Dynamic Head: Unifying Object Detection Heads with Attentions
本研究表明,设计和学习目标检测头中的注意力是一个有趣的方向,值得更多的关注。这项工作只需要一步,可以在以下方面进一步改进:如何使全注意力模型易于学习和高效计算,以及如何在头部设计中系统地考虑更多的注意力模式以获得更好的性能。动态头部可以进一步受益于更大的输入大小和使用自训练方法生成的额外数据。将最大图像边从1333增加到2000,并使用最小图像边从480变化到1200的多尺度训练。与之前训练方案类似,避免使用更多技巧来确保再现性。如上表所示,与最新的作品相比,动态头带来了显著的增益。原创 2022-11-01 18:38:53 · 1825 阅读 · 0 评论 -
ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer
近年来,卷积神经网络(CNN)在计算机视觉领域占据主导地位,这归因于其建模逼真图像的能力,从局部感知到全局感知。虽然它们已被广泛应用于各种视觉任务,但在整体视觉感知方面仍存在不足。这种全局视图对于下游任务(如对象检测和语义分割)至关重要。最近,ViT及其后续采用变压器编码器来处理图像任务,由于具有全局感受野,因此取得了与CNN相当的性能。不过,由于全局自注意力是整个序列的二次计算,因此对 transformer 的感知需要进行大量的计算。原创 2022-09-02 09:00:06 · 1095 阅读 · 0 评论 -
Shunted Self-Attention via Multi-Scale Token Aggregation
最近的VisionTransformer(ViT)模型在各种计算机视觉任务中表现优异,这得益于它能够通过自注意对图像块或标记的长期依赖进行建模。然而,这些模型通常在每一层中每个token特征指定指定的感受野。这种约束不可避免地限制了每个自注意力层对多尺度特征的捕获能力,从而导致对不同尺度多目标图像的处理性能下降。为了解决这个问题,作者提出了一种新的通用策略,称为分流自我注意(SSA),它允许VIT在每个注意里层的混合尺度上建模注意力。......原创 2022-07-31 15:26:38 · 2425 阅读 · 0 评论 -
RFLA: Gaussian Receptive Field based Label Assignment for Tiny Object Detection
微小物体以其极其有限的像素(小于AI-TOD中定义的16×16像素)为特征,一直是计算机视觉界的难题。微小物体检测(TOD)是最具挑战性的技术之一。而对于TOD任务,一般的物体检测器通常不能实现满意的结果,这是由于微小物体缺乏鉴别特征。针对微小物体的特殊性,提出了几种定制化的TOD基准(如AI-TOD、TinyPerson、AI-TOD-v2),可用于辅助驾驶、交通管理、海上救援等一系列下游任务。近年来,TOD逐渐成为独立于一般目标检测的热门但又具有挑战性的方向。...原创 2022-08-26 15:04:23 · 3107 阅读 · 0 评论