【论文速看】DL最新进展20241001-目标检测YOLOv11、CNN、人脸修复

IRevers

已于 2024-10-02 00:17:13 修改

阅读量3.1k

点赞数 14

文章标签：目标检测 YOLO cnn 人工智能计算机视觉深度学习机器学习

于 2024-10-01 23:19:49 首次发布

本文链接：https://blog.csdn.net/qq_40734883/article/details/142665766

版权

【目标检测】

[2024] YOLOv11

机构：Ultralytics

文档链接（含模型权重和使用方法）：https://docs.ultralytics.com/models/yolo11

代码链接：https://github.com/ultralytics/ultralytics

增强的特征提取能力：YOLO11采用了改进的主干和颈部架构，增强了特征提取能力，能够实现更精确的目标检测和复杂任务的执行。
优化的效率和速度：YOLO11引入了精细化的架构设计和优化的训练流程，提供更快的处理速度，并在准确性和性能之间保持最佳平衡。
参数更少、精度更高：通过模型设计的改进，YOLO11m在COCO数据集上实现了更高的平均精度（mAP），同时使用的参数比YOLOv8m少22%，使其在计算上更加高效，而不牺牲准确性。
跨环境的适应性：YOLO11可以无缝部署在各种环境中，包括边缘设备、云平台和支持NVIDIA GPU的系统，确保最大的灵活性。
支持广泛任务：无论是目标检测、实例分割、图像分类、姿态估计还是定向目标检测（OBB），YOLO11都旨在应对一系列计算机视觉挑战。

在这里插入图片描述

[ICASSP 2025] Sparse R-CNN OBB: Ship Target Detection in SAR Images Based on Oriented Sparse Proposals

论文链接：https://arxiv.org/pdf/2409.07973

代码链接：http://www.github.com/ka-mirul/Sparse-R-CNN-OBB

文中提出了Sparse R-CNN OBB，这是一个用于检测合成孔径雷达（SAR）图像中定向物体的新颖框架，利用了稀疏可学习的proposal。Sparse R-CNN OBB具有简化的架构和易于训练的特点，因为它使用了一组稀疏的300个提议，而不是在成千上万个锚点上训练一个提议生成器。据我们所知，Sparse R-CNN OBB是第一个采用稀疏可学习提议概念来检测定向物体以及在合成孔径雷达（SAR）图像中检测舰船的模型。基准模型Sparse R-CNN的检测头被重新设计，以使模型能够捕捉到物体的方向。在RSDD-SAR数据集上对模型进行了微调，并提供了与最先进模型的性能比较。实验结果表明，Sparse R-CNN OBB表现出色，超越了其他模型在近海和远海场景中的表现。

在这里插入图片描述

【CNN】

[2024 ACCV2024] CNN Mixture-of-Depths

论文链接：https://arxiv.org/pdf/2409.17016v1

代码链接：无

本文引入了混合深度（MoD）用于卷积神经网络（CNNs），这是一种新颖的方法，通过基于当前预测的相关性选择性地处理通道来提高CNNs的计算效率。该方法通过动态选择特征图中的关键通道在卷积块（Conv-Blocks）中进行集中处理，同时跳过不太相关的通道，从而优化计算资源。与需要动态计算图的条件计算方法不同，CNN MoD使用具有固定张量大小的静态计算图，这提高了硬件效率。它在不需要定制CUDA内核、独特的损失函数或微调的情况下加快了训练和推理过程。CNN MoD要么在减少推理时间、GMACs和参数的同时与传统CNNs的性能相匹配，要么在保持类似的推理时间、GMACs和参数的同时超过它们的性能。例如，在ImageNet上，ResNet86-MoD的性能超过了标准ResNet50的0.45%，并且在CPU上提速6%，GPU上提速5%。此外，ResNet75-MoD在CPU上达到与ResNet50相同的性能，在CPU提速25%，在GPU上提速15%。

【人脸修复】

[2024 IJCAI 2024] Beyond Alignment: Blind Video Face Restoration via Parsing-Guided Temporal-Coherent Transformer

论文链接：https://arxiv.org/pdf/2404.13640

代码链接：https://github.com/kepengxu/PGTFormer

在现实世界中，低质量视频人脸存在多种复杂的退化现象。因此，盲视频人脸恢复是一个极具挑战性的病态问题，不仅需要生成高保真细节，还需要在不同姿态变化下增强时间一致性。以朴素的方式独立恢复每一帧不可避免地会引入时间不连贯性和由于姿势变化及关键点定位错误而产生的伪影。为了解决这个问题，文中提出了首个无需预对齐的盲视频人脸恢复方法，采用了一种新颖的解析引导的时间一致Transformer（PGTFormer）。PGTFormer利用语义解析指导来选择最优的人脸先验，以生成时间上连贯且无伪影的结果。具体来说，在高质量视频人脸数据集上预训练了一个时空向量量化自编码器，以提取表现力丰富的上下文先验。然后，基于人脸解析上下文线索的时间解析引导码本预测器（TPCP）在不同姿态下恢复人脸，而不进行人脸预对齐。这种策略减少了伪影并缓解了由人脸预对齐累积误差引起的抖动。最后，时间保真度调节器（TFR）通过时间特征互动增强了保真度，并提高了视频的时间一致性。在人脸视频上的大量实验表明，所提方法优于先前的人脸恢复基准线。

在这里插入图片描述

[ICCV 2023] Lighting Every Darkness in Two Pairs: A Calibration-Free Pipeline for RAW Denoising

论文链接：https://arxiv.org/pdf/2308.03448v1

代码链接：https://github.com/Srameo/LED

在极低光照环境下，基于校准的方法主导了原始图像去噪。然而，这些方法存在几个主要缺点：1）校准过程繁琐且耗时；2）不同相机的去噪器难以迁移；3）高数字增益放大了合成噪声与实际噪声之间的差异。为了克服上述缺点，文中提出了一个无需校准的流程，即“照亮每个黑暗”（LED），无论数字增益或相机传感器如何。所提方法不需要反复校准噪声参数和训练，只需少量配对数据和微调即可适应目标相机。此外，两个阶段中精心设计的结构修改缓解了合成噪声与实际噪声之间的领域差距，而且没有任何额外的计算成本。通过每个额外数字增益使用2对（总共6对）和0.5%的迭代次数，所提方法在性能上优于其他基于校准的方法。

在这里插入图片描述