DETR网络结构

本文所画的DETR结构是基于的代码基于:

https://gitee.com/qiancheng_sjtu/detr_demo/tree/master

代码运行环境:

    windows10

    torch 1.7.1

图中对resnet50部分没有进行解析,如果对rensnet50还不熟悉,可以先参考Resnet_50网络结构图_haoji007的博客-CSDN博客_resnet50结构图

DETR输入图片以size为(bs,3,224,224)为例,用的resnet50就是去掉了原版的最后一个连接层,输出size为(bs,2048,7,7)

需要原图的可以留言(很不要face的在图上加了自己笔名),我看到了会尽快发

第一次写博客,写的比较乱,请多指教

由于不常看评论区,所以还是网盘分享

链接: https://pan.baidu.com/s/1xEnF9LY5_Z0kps9S1NCRcA 提取码: d6m9

DETR (Detected Transformers) 是一种基于Transformer架构的目标检测模型,它显著地改变了传统的目标检测流程,不再依赖于复杂的区域提议生成步骤。DETR的核心思想是将每个目标视为查询向量,并通过编码器-解码器结构直接预测出目标的位置和类别。 它的前馈网络层主要包括以下几个部分: 1. **输入表示**:首先,图像被送入一个预训练的CNN(如ResNet或ViT),提取特征图。然后,每个位置的特征会被转化为固定大小的嵌入向量,称为“位置编码”。 2. **自注意力层**(Self-Attention Layer):这是Transformer的基础模块,它允许模型学习输入序列中的全局上下文信息。在这个阶段,每个查询向量都会与所有其他位置的特征进行交互,形成注意力权重,用于加权聚合特征。 3. **跨注意力层**(Cross-Attention Layer):如果存在可选的关键字(如目标候选),这一层会引入跨模态的关注机制,使得模型能够同时考虑视觉特征和查询向量。 4. **点wise变换**:经过注意力之后,通过一些线性变换和残差连接,更新查询向量以更好地反映其对应的目标信息。 5. **多头注意力**(Multi-Head Attention):为了捕获不同抽象层次的信息,DETR通常采用多头注意力机制,对输入进行多次独立处理。 6. **Feedforward Network**:这是一系列密集的全连接层,进一步转换和提炼注意力结果。 7. **预测头**:最后,一个或多个预测头会对更新后的查询向量进行分类和回归,分别预测目标的类别和精确边界框坐标。
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值