[个人笔记] DETR

余web

已于 2022-05-13 21:17:46 修改

阅读量111

点赞数 1

文章标签： transformer 深度学习人工智能

于 2022-05-13 21:17:13 首次发布

本文链接：https://blog.csdn.net/YU_WEBBER/article/details/124759895

版权

最近重新认真学习了一下Transformer在cv中的代表网络。虽然网上讲解很多但还是得自己过一遍啊，理解一下各处细节处理。为了防止学了就忘，结合代码画了两张图并做了一些笔记。细节可能有差错，欢迎指正。

End-to-End Object Detection with Transformers （DETR，2020）

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale （ViT，2020）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

余web

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

详解RT-DETR网络结构/数据集获取/环境搭建/训练/推理/验证/导出/部署

Snu77的博客

11-27

2万+

本文给大家带来是利用RT-DETR模训练自己的数据集，RT-DETR是一种新提出的目标检测模型，它利用的自注意力机制来处理图像数据。不同于YOLO通过连续的卷积层直接对图像区域进行分析，RT-DETR采用Transformer架构中的自注意力机制，这允许模型更有效地理解图像中不同部分之间的关系。这种方法使得RT-DETR在处理图像中的复杂场景和多对象环境时，能够展现出更高的准确性和效率。此外，RT-DETR在保持高精度的同时，也针对实时处理进行了优化，使其适合需要快速响应的应用场景。

DETR学习笔记

qq_60199131的博客

04-08

1156

为了简化这些流程，作者提出了一种直接的集合预测方法，即DETR，它通过端到端的方式直接输出最终的预测集合，无需手设计的组件。由于padding的区域是无效的，因此就需要一个额外的mask，其中0表示原图区域，而1对应padding区域，这部分的计算都会被mask掉，相当于告诉网络这些是无用的，不需要计算和回传梯度等。相反，它直接在图像的特征图上预测目标的位置和大小。有一个人叫x，他在一系列评判标准W中，计算得到，他的择偶标准是Q，自身条件是K，相亲对象为V，V就是由择偶标准是Q和自身条件是K得到的。

参与评论您还未登录，请先登录后发表或查看评论

CO-DETR论文学习笔记

weixin_74326343的博客

11-18

975

这里，输出的proposal用ROI池化的话，就让大的ROI对应后面的map，C5；小的对应前面的C4；而在多尺度下，即运用前面提到的FPN生成多尺度特征图然后作为不同的RPN head，此时得到的featuremap已经是多尺度的了，所以不需要多尺度的anchor，只需要不同高宽比的anchor，所以一共只需要15个anchor。这里要注意，用的是单个特征图进行上采样&下采样直接生成金字塔（在VitDet中有提到，FPN其实是不必要的），这里放一下原论文的三个生成特征金字塔的对比吧，采用的就是c啦，

Deformable DETR 论文笔记

Tianchao龙虾

10-23

2850

DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION Deformable DETR ICLR2021 oral 论文链接: https://arxiv.org/abs/2010.04159 一、 Problem Statement DETR具有收敛速度慢，小目标检测性能差的缺点。这是因为Transformer attention模块在处理图像特征图的时候的限制。目前很多都是使用多层特征图进行检测，但是高分辨率的

DETR个人学习笔记（二）之Transformer架构概述

weixin_44303979的博客

05-13

591

下面来了解Transformer的原理。首先我们来回顾一下RNN，RNN的encoder做编码的时候对于输入的句子需要一个个的处理。在左边的部分可以看到，在处理句子的时候，我们需要一个词一个词的将词语输入RNN。RNN有梯度消失的问题（vanishing gradient problems）。对于Transformer encoder，它可以把整个句子同时输入编码器，也就是把整个句子并行的处理。使得每个token可以关注到别的token，而不仅是关注到自身。这里的token是指把句子分割成词，或者分割成词

DETR源码笔记（二）

在努力的松鼠的博客

06-07

5382

在DETR源码笔记（一）中，阅读到了main()函数的第二部分构建模型部分 model, criterion, postprocessors = build_model(args)#构建model model.to(device) model_without_ddp = model if args.distributed: model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[.

DETR 系列有了新发现？DETRs with Hybrid Matching 论文阅读笔记

乄洛尘

06-18

3441

一对一匹配是 DETR 建立端到端训练的关键，以至目标检测不再需要 NMS了。然而更少的 queries 被赋值为正样本，导致一对一匹配显著减低了正样本的有效训练。于是提出混合匹配计划：在训练中结合原始的一对一匹配分支和辅助的一对多匹配分支。在推理过程中，仅采用原始的一对一匹配分支，维持端到端的优点以及 DETR 相同推理效率的同时，提高精度。本文提出的方法名为 H-DETR，提升了一系列包括 Deformable-DETR、PETRv2、PETR、TransTrack 等方法在大量视觉任务上的表现。

论文笔记：DETR-目标检测新范式——基于Transformers的端到端目标检测器

qq_50001789的博客

02-21

1454

论文题目：《End-to-End Object Detection with Transformers》传统的目标检测都不是端到端的检测方法（例如Faster R-CNN，YOLOv3等等），网络的输出较多，需要再利用NMS运算过滤重叠率较高的边界框，解决冗余问题，并且基于锚点的算法还需要根据具体任务来预设锚点，实施起来比较麻烦。本文提出了一种新的目标检测网络架构，可以实现端到端运算，网络输出的结果就是最终的预测结果，不需要额外的运算。

【CV学习笔记】onnx篇之DETR

Rex大居

06-15

1838

detr、onnx 、onnxruntime

DETR&DDETR

Sky_小天

10-26

1040

DETR的思路是将backbone输出特征图的像素展开成一维后当成了序列长度，而batch和channel的定义不变。

Meta-DETR: Image-Level Few-Shot Object Detection with Inter-Class Correlation Exploitation个人理解和待解决疑问

qq_41064487的博客

03-28

4996

FSOD论文系列-meta-DETR研读笔记

静谧、淡雅

05-29

2523

2024年5月最新的YOLO系列模型Yolov10的论文阅读笔记

YOLOv8改进 | Conv篇 | 将RT-DETR模型AIFI模块和Conv模块结合替换SPPF（全网独家改进）

Snu77的博客

12-06

6017

深度学习之循环神经网络(RNN)

weixin_43775295的博客

11-12

315

其一般处理单个的输入，前一个输入和后一个输入完全无关，但实际应用中，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。由于RNN特有的memory会影响后期其他的RNN的特点，梯度时大时小，learning rate没法个性化的调整，导致RNN在train的过程中，Loss会震荡起伏，为了解决RNN的这个问题，在训练的时候，可以设置临界值，当梯度大于某个临界值，直接截断，用这个临界值作为梯度的大小，防止大幅震荡。中必须包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。

深度学习笔记13-卷积神经网络1

最新发布

weixin_51828505的博客

11-12

666

卷积神经网络（CNN），它是由多个卷积层、池化层和全连接层构成的前馈神经网络。在卷积神经网络中，包含了可训练的卷积核，这使得卷积神经网络具有强大的表征学习能力。卷积神经网络通过卷积层和池化层进行特征提取，通过全连接层和输出层进行分类。因此卷积神经网络是一种端到端的机器学习模型。

深度学习：掩蔽softmax

m0_49786943的博客

11-12

408

假如valid_lens=tensor([2, 3, 1])shape[1]为3（即第一个样本每一行的有效长度为2，第二个样本每一行有效长度为3，第三个样本每一行有效长度为1），通过代码valid_lens将会变为tensor([2, 2, 2, 3, 3, 3, 1, 1, 1])即有效长度成功扩展到每个位置。valid_lens = valid_lens.reshape(-1): 将 valid_lens 展平为一维张量，形状为 (batch_size * sequence_length,)

CNN和MobileNetV2搭建的水果识别模型

chengxuyuanlaow的博客

11-09

697

在本项目中着重探索了利用深度学习模型进行水果图像分类的方法。具体而言包括使用卷积神经网络（CNN）模型进行水果图片的分类和探索轻量级神经网络模型MobileNetV2在水果图像分类中的应用。在第一项任务中，使用TensorFlow构建了一个简单的CNN模型，并通过调整模型参数来提高准确率。在实验过程中发现由于数据集的问题，训练结果并不理想，测试集上的准确率低于预期，同时出现了过拟合的情况。针对这个问题，从优化器、学习率和训练轮次等方面入手，对模型进行了改进和调整。

torch.nn.**和torch.nn.functional.**的区别

laice的博客

11-11

328

torch.nn.**是一个继承了torch.nn.Module的类，使用前必须先构造对象，然后再调用。如果直接使用则会报错。torch.nn.functional.**是一个纯数学函数，可以直接使用。

【循环神经网络】

严文文 Chris

11-12

564

RNN是一种强大的序列建模工具，适合处理各种时间序列和自然语言数据。然而，传统RNN在处理长序列时存在梯度消失问题，随着LSTM和GRU等改进模型的引入，RNN的性能得到了极大提升。无论是在自然语言处理、语音识别，还是时间序列分析等领域，RNN都发挥了重要作用。

facebookresearch detr

09-04

Facebook Research的DETR（Detected Transformers，检测变压器）是一种基于Transformer架构的计算机视觉模型，主要用于目标检测任务。它在2020年首次提出，作为一种新颖的无区域提议方法，跳过了传统的候选区域生成...