【计算机视觉】目标检测和语义分割网络目录

基于CNN的目标检测原理和技术路线:

输入图像:
首先,输入的原始图像会被送入目标检测模型。这幅图像是目标检测流程的起点。
卷积层:
图像经过一系列的卷积层。卷积层通过应用多个不同的过滤器(或称为卷积核)到图像上,能够捕捉到图像中的低级特征,如边缘、颜色块、纹理等。
随着数据通过更深层的卷积网络,后续的卷积层能够组合这些低级特征来检测更高级的特征,如物体的部分组成等。
特征图:
经过多层卷积和激活函数处理后,原始图像被转换成了多个特征图(feature maps)。这些特征图包含了图像中重要的空间层次信息,为后续的目标检测提供数据基础。
锚框(Anchor boxes):
在使用如Faster R-CNN这类模型中,会在特征图上定义多个锚框。锚框是预定义的多种尺寸和比例的矩形框,它们被用来作为候选区域,帮助模型在图像中定位可能的对象。
锚框的使用使得模型能够有效地在多种尺度和长宽比上检测对象。
分类和边界框回归(Bounding box regression):
对于每个锚框,模型会输出一个分类得分,表明该锚框内包含某个对象的概率,以及一个边界框偏移量,用来精确调整锚框的位置以更好地匹配实际对象。
分类通常通过全连接层(或其他分类结构)来实现,而边界框回归也是通过学习得到的。
非极大值抑制(Non-maximum suppression, NMS):
最后,使用非极大值抑制技术来处理多个重叠的边界框。这一步骤会保留具有最高得分的边界框,并抑制其他重叠的低得分边界框,确保每个对象只被检测一次。
在这里插入图片描述
2015-2017年:目标检测的加速与精确化
Fast R-CNN (ICCV 2015) 和 Faster R-CNN (NeurIPS 2015):
特点:Fast R-CNN 引入了ROI pooling层,显著提升了训练和测试速度,同时通过多任务损失实现了端到端的训练。Faster R-CNN 在此基础上添加了区域提议网络(RPN),实现了近乎实时的检测速度。
创新点:Faster R-CNN 通过共享全图的卷积特征,大幅度降低了计算量,使得目标检测可以在较短的时间内完成。
SSD (ECCV 2016) 和 RetinaNet (ICCV 2017):
特点:SSD 通过在不同尺度的特征图上同时预测边界框和类别概率,提升了对不同尺寸物体的检测性能。RetinaNet 解决了类别不平衡问题,引入了Focal Loss来增强模型对稀有类别的学习能力。
创新点:SSD 展示了多尺度特征图的有效性,而RetinaNet 的Focal Loss 则是一个重要的里程碑,解决了在极端类别不平衡条件下的训练问题。
2018-2019年:新架构与算法的引入
YOLO(ArXiv 2018) 和 Cascade R-CNN (CVPR 2018):

特点:YOLOv3 在YOLO基础上进一步提升了检测的准确度和速度,使用了三种尺度的特征图。Cascade R-CNN 通过多级检测头逐步精调边界框。
创新点:Cascade R-CNN 体现了多阶段精细化策略在实际应用中的有效性,而YOLOv3 则继续推动了一步检测策略的极限。
CornerNet (ECCV 2018) 和 CenterNet (CVPR 2019):
特点:CornerNet 通过检测目标的角点并配对来预测边界框,摒弃了传统的锚框。CenterNet 则通过直接预测中心点和宽高来确定边界框。
创新点:这两种方法都减少了对锚框的依赖,开辟了无锚框检测的新途径。
2020年至今:向自动化与效率优化迈进
EfficientDet (CVPR 2020) 和 ViTDet (ECCV 2022):
特点:EfficientDet 系统地优化了多尺度特征融合方式,通过复合缩放方法提升了效率和效果。ViTDet 则将视觉Transformer应用于目标检测,提升了模型对复杂场景的理解能力。
创新点:EfficientDet 在保持高精度的同时显著提高了效率,ViTDet 则体现了Transformer在目标检测中的应用潜力。
DETR (ECCV 2020) 和 Conditional DETR (ICCV 2021):
特点:DETR 引入了Transformer的encoder-decoder架构,消除了对NMS和锚框的需求。Conditional DETR 对DETR的训练过程和推理速度进行了优化。
创新点:DETR 和 Conditional DETR 展示了如何通过全局推理和直接集合预测来简化目标检测流程。

基于CNN的图像分割原理和技术路线:

输入图像:
语义分割的处理始于一幅输入图像,这幅图像可能是数字图像、视频帧或任何其他形式的视觉数据。
预处理:
预处理步骤可以包括调整图像大小、归一化、颜色空间转换等,以适应后续处理过程的需要。这一步骤的目的是减少图像中的噪声并增强特征,使模型更容易理解图像内容。
特征提取:
使用卷积神经网络(CNN)提取图像特征。这些网络通过多层卷积、激活和池化层逐步提取从低级到高级的图像特征。深层网络能够捕捉到复杂的视觉模式,这对于理解图像中的复杂结构是非常重要的。
上采样和特征融合:
由于连续的卷积和池化操作会导致特征图的空间维度减小,因此需要通过上采样(如转置卷积)恢复特征图的尺寸。此外,深层和浅层特征的融合通常通过跳跃连接实现,这有助于恢复图像的精细细节。
像素分类:
在特征图被上采样到与原始图像相同的分辨率后,对每个像素点进行分类。这一步通常通过一个1x1的卷积层实现,该层输出每个像素点属于各个类别的概率。
后处理:
为了提高分割的准确性和连贯性,可以应用一些后处理技术,如条件随机场(CRF)等,来细化每个像素的类别标签,消除分类中的小错误,改善边界区域的连贯性。
输出分割图:
最后,输出的是一幅分割图,其中每个像素的颜色代表了该像素被分类的类别。这幅图像提供了对原始输入图像中各个对象和区域的详细语义理解。
在这里插入图片描述
2015-2017年:基础框架和模块的发展
FCN (Fully Convolutional Network, CVPR 2015):

首次引入全卷积网络用于语义分割,摒弃了全连接层,通过上采样层恢复图像尺寸,实现端到端训练。
UNet (MICCAI 2016):
特别针对医学图像分割,采用对称的下采样和上采样结构,加强了特征传递和位置精度。
PSPNet (CVPR 2017):
引入金字塔池化模块,有效捕获不同区域的上下文信息,极大提升了分割精度。
2018年:多尺度和上下文融合
DeepLabV3 (ArXiv 2017) / DeepLabV3+ (CVPR 2018):
使用空洞卷积探索多尺度上下文信息,DeepLabV3+增加了解码模块,优化了细节分割。
BiSeNetV1 (ECCV 2018):
双路径网络,一个快速下采样,一个保持细节,特别适合实时应用。
2019年:注意力机制和网络效率的创新
ANN (ICCV 2019), CCNet (ICCV 2019), DANet (CVPR 2019):

强调注意力机制在特征重校准中的作用,通过自注意力和互注意力提升分割质量。
Fast-SCNN (ArXiv 2019):
轻量级网络,通过深度可分离卷积优化计算和参数效率,适用于移动端。
2020年:Transformer的引入和边界优化
PointRend (CVPR 2020):

通过逐点渲染技术改善分割边界的细节,用于处理不规则边界问题。
2021年:Transformer和解码器的完善
SegFormer (NeurIPS 2021), SETR (CVPR 2021), MaskFormer (NeurIPS 2021):

SegFormer和SETR采用Transformer作为骨干,强化全局信息捕捉;MaskFormer则引入mask预测,将语义分割和实例分割的思路结合,提升多类别分割性能。
2022年及以后:算法架构的多样化与细化
DDRNet (T-ITS 2022), SAN (CVPR 2023), VPD (ICCV 2023):

DDRNet强调实时性和准确性的平衡,适用于城市场景解析;SAN和VPD等则继续推进算法架构的创新,如更精细的上下文捕获和更高效的特征融合。

代表性检测网络架构list:

Fast R-CNN (ICCV’2015)
Faster R-CNN (NeurIPS’2015)
RPN (NeurIPS’2015)
SSD (ECCV’2016)
RetinaNet (ICCV’2017)
Cascade R-CNN (CVPR’2018)
YOLOv3 (ArXiv’2018)
CornerNet (ECCV’2018)
Grid R-CNN (CVPR’2019)
Guided Anchoring (CVPR’2019)
FSAF (CVPR’2019)
CenterNet (CVPR’2019)
Libra R-CNN (CVPR’2019)
TridentNet (ICCV’2019)
FCOS (ICCV’2019)
RepPoints (ICCV’2019)
FreeAnchor (NeurIPS’2019)
CascadeRPN (NeurIPS’2019)
Foveabox (TIP’2020)
Double-Head R-CNN (CVPR’2020)
ATSS (CVPR’2020)
NAS-FCOS (CVPR’2020)
CentripetalNet (CVPR’2020)
AutoAssign (ArXiv’2020)
Side-Aware Boundary Localization (ECCV’2020)
Dynamic R-CNN (ECCV’2020)
DETR (ECCV’2020)
PAA (ECCV’2020)
VarifocalNet (CVPR’2021)
Sparse R-CNN (CVPR’2021)
YOLOF (CVPR’2021)
YOLOX (CVPR’2021)
Deformable DETR (ICLR’2021)
TOOD (ICCV’2021)
DDOD (ACM MM’2021)
RTMDet (ArXiv’2022)
Conditional DETR (ICCV’2021)
DAB-DETR (ICLR’2022)
DINO (ICLR’2023)
GLIP (CVPR’2022)
DDQ (CVPR’2023)
DiffusionDet (ArXiv’2023)
EfficientDet (CVPR’2020)
ViTDet (ECCV’2022)
Detic (ECCV’2022)
CO-DETR (ICCV’2023)

代表性分割网络架构list:

SAN (CVPR’2023)
VPD (ICCV’2023)
DDRNet (T-ITS’2022)
PIDNet (ArXiv’2022)
Mask2Former (CVPR’2022)
MaskFormer (NeurIPS’2021)
K-Net (NeurIPS’2021)
SegFormer (NeurIPS’2021)
Segmenter (ICCV’2021)
DPT (ArXiv’2021)
SETR (CVPR’2021)
STDC (CVPR’2021)
BiSeNetV2 (IJCV’2021)
CGNet (TIP’2020)
PointRend (CVPR’2020)
DNLNet (ECCV’2020)
OCRNet (ECCV’2020)
ISANet (ArXiv’2019/IJCV’2021)
Fast-SCNN (ArXiv’2019)
FastFCN (ArXiv’2019)
GCNet (ICCVW’2019/TPAMI’2020)
ANN (ICCV’2019)
EMANet (ICCV’2019)
CCNet (ICCV’2019)
DMNet (ICCV’2019)
Semantic FPN (CVPR’2019)
DANet (CVPR’2019)
APCNet (CVPR’2019)
NonLocal Net (CVPR’2018)
EncNet (CVPR’2018)
DeepLabV3+ (CVPR’2018)
UPerNet (ECCV’2018)
ICNet (ECCV’2018)
PSANet (ECCV’2018)
BiSeNetV1 (ECCV’2018)
DeepLabV3 (ArXiv’2017)
PSPNet (CVPR’2017)
ERFNet (T-ITS’2017)
UNet (MICCAI’2016/Nat. Methods’2019)
FCN (CVPR’2015/TPAMI’2017)

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值