【博士论文】复杂场景下高精度有向目标检测的研究

e1cf92cee5c8fd275161513ead3d11f2.png

来源:专知
本文为论文介绍,建议阅读5分钟
本论文旨在研究复杂场景下高精度的有向目标检测算法。

来自上海交大的杨学博士论文,入选2023年度“CCF博士学位论文激励计划”初评名单。

https://www.ccf.org.cn/Focus/2023-11-29/798503.shtml

本论文旨在研究复杂场景下高精度的有向目标检测算法。有向目标检测是 通用水平目标检测的一个扩展研究方向,其主要特点是可以更精准地定位目标, 并擅长完成包含大量密集排列、大长宽比、方向任意目标的复杂场景的检测任 务。大量文献表明,有向目标检测不仅在计算机视觉领域中有着重要的学术研 究价值,在国防建设、科学技术、医学治疗、食品健康、工业发展、环境保护、 农业养殖、公共安全、文化传播等领域也具有广阔的应用价值。受益于通用水平目标检测在深度学习时代的蓬勃发展,有向目标检测器可 以很轻松地基于先进的水平检测算法进行实现。但是,有向目标检测的研究常常 需要面对一些独特的问题挑战,如不同定义法下由边界不连续造成的损失陡增、 类正方目标导致的表示歧义等。如何更加高效地实现高精度有向目标检测已成 为当下的研究热点。本论文以有向目标检测为研究重点,在鲁棒有向目标检测 器搭建、高效位姿参数估计、弱监督算法探索以及有向目标检测工具设计这四个 方面来扩展和完善现有的算法。

论文的主要贡献包含以下几方面: 

• 介绍了如何基于一个水平目标检测器搭建出一个有向目标检测器,主要内 容包括不同旋转框的定义、不同锚框的形式、旋转框重叠率的计算、回归 参数的估计以及回归损失等基础知识。 

• 提出了一种从粗到细的渐进式回归的有向目标检测器 R 3Det。本文针对单 阶段级联检测器中存在的特征不对齐问题设计了特征精修模块,最终在精 度和速度之间取得了较佳的平衡。 

• 在特定旋转框定义法下,本文通过将角度估计方式从回归转换成精细的分 类(CSL 和 DCL)以解决有向目标检测中的边界不连续问题,并进一步采 用四边分类的策略在构造的新数据集 OHD-SJTU 上实现了目标头部检测。 

• 为同时解决边界不连续、类正方形检测以及评估与损失不一致性等问题, 本文提出了高斯分布建模和距离度量技术(GWD 和 KLD)。通过尺度不变 性证明和梯度分析,本文发现使用 KLD 作为最终的回归损失可以显著地 提升高精度指标。 

• 在保留高斯分布建模的优势下,本文提出了使用分布之间的相似性度量 (KFIoU) 取代距离度量,更好地解决了评估与损失不一致的问题并在不引 入任何超参数的情况下取得了性能的提升。 

• 本文首次在目标检测领域中提出了一个新的研究课题:基于水平框标注 训练的弱监督有向目标检。同时,本文设计了一种新的自监督的网络架构 (H2RBox),其通过衡量输入图片在不同视图下的一致性来实现精准的旋转。框估计。与基于弱监督实例分割的方法相比,H2RBox 具有性能高、速度 快和存储需求低的优势,且各方面都接近强监督有向目标检测算法。 

• 从学术研究、工业部署和国产化三个角度出发,本文分别基于 TensorFlow、 PyTorch 和 Jittor 搭建了三种各具特色的有向目标检测工具:MMRotate、 AlphaRotate 和 JDet,为有向目标检测的发展和应用提供了便利。

e7682efea0fa87ed6b775b07a0931521.png

04c1804334ad15000b98b2e440206fc2.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值