除了此处的分析,类似的分析可见小小糯米呀的博客
Clustered Object Detection in Aerial Images
来源:arXiv (2019)
- 数据库
VisDrone 单目标跟踪数据库
UAVDT 无人机数据库
DOTA 多角度标签遥感数据库 - 问题
行人等目标目标像素非常少,难以与周围背景区分;
目标一般非常稀疏且分布不均匀,使得检测效率非常低。 - 方案
提出 ClusDet 集群检测网络,包括
集群提议子网络(CPNet)——减少了最终目标检测块的数量,从而达到运行时间效率高
尺度估计子网络(ScaleNet)——有效地提高了小目标检测
检测网络(DetecNet)——集群proposal隐式利用上下文信息,提高了检测的准确性 - 评价:
思路清晰,创新点新颖,效果好。
DOTA: A Large-Scale Dataset for Object Detection in Aerial Images
来源:CVPR (2018)
- 数据库:
DOTA - 问题:
缺乏好的遥感数据库 - 方案:
提出了一种新的遥感目标检测数据库DOTA
标签有两种形式,矩形和多边形(可以斜着) - 评价:
数据库的创新很足,旋转标注或多边形标注对一些类别很有帮助(舰船)
Multi-Scale Image Block-Level F-CNN for Remote Sensing Images Object Detection
来源:IEEE Access (2019)
- 数据集
NWPU VHR-10
两个Airports数据集 - 问题
复杂多变的外观、昂贵的人工标注、大场景图像的快速检测 - 方案
多尺度图像块级全卷积神经网络(MIF-CNN)
首先,只需要类标签而不需要边界框标签的训练数据集可以减少训练过程中手工标注的开销。
其次,MIF-CNN的设计目的是提取基于多尺度的高层特征,能够更好地表示各种类型的目标。
在测试阶段,将大场景图像直接输入到MIF-CNN模型中,通过提出的边界框修改策略和局部再识别策略对MIF-CNN输出地图进行改进,生成检测结果。
评价:
较好地解决了所提出的问题,逻辑严密,创新性好。
Learning rotation-invariant and Fisher discriminative convolutional neural networks for object detection
来源:IEEE Transactions on Image Processing (2019)
- 数据库
PASCAL VOC 2007
PASCAL VOC 2012
Aerial Car Detection Dataset - 问题
对象旋转、类内多样性和类间相似性 - 方案
提出了一种简单有效的方法来训练旋转不变和Fisher判别CNN模型,这是通过优化一个新的目标函数来实现的,该函数显式地在CNN特征上添加了一个旋转不变正则化器和一个Fisher判别正则化器。
第一个正则化器强制旋转前后训练样本的CNN特征表示相互紧密映射,以实现旋转不变性。第二个正则化器将CNN的特征限制为类内离散小,类间分离大 - 评价:
提出的旋转不变曾很好地解决了旋转问题,Fisher判别约束了类内、类间距离,思路新颖、效果好。
Object Detection in Aerial Images Using Feature Fusion Deep Networks
来源:IEEE Access (2019)
- 问题
高密度,小尺寸的物体和复杂的背景 - 方案
特征融合深度网络(FFDN) - 数据库
UAV123 跟踪数据库(汽车)
UAVDT benchmark 无人机数据库 - 效果:
检测小尺寸,部分遮挡和不在视野中以及在黑暗背景中出现的物体 - 评价:
多种传统方法、多种深度方法的组合,效果好,创新点多,但较复杂,思路不清。
Detection of Multiclass Objects in Optical Remote Sensing Images
来源:IEEE Geoscience and Remote Sensing Letters
- 数据库
DOTA - 问题
[7]中利用YOLOv2得到的模型,对小目标精度高,但大目标精度较低;
如何才能不降低小目标精度、提升大目标精度 - 方案
oriented response (OR) —— 让空洞卷积的卷积核中各个位置处的权重,绕着中心转圈跑
dilate convolution —— 空洞卷积提特征,这是前人提出的工作 - 不足
OR正确运行的前提是,中心位置准确,不然还是起不到旋转不变性的作用。
但是显然,中心位置准确这一假设是比较难满足的。 - 评价:
创新点比较好,一定程度上可以解决所提出的问题,但是仍然不够完美。
Deep Adaptive Proposal Network for Object Detection in Optical Remote Sensing Images
来源:arXiv (2018)
- 数据库
NWPU VHR-10 - 问题
遥感图像中目标的稠密、稀疏情况是复杂的;
用相同的区域生成策略不合情理。 - 方案
以Faster R-CNN为基础,学习一种新的类别先验网络(CPN),
提出深度自适应建议网络(DAPNet)
DAPNet不同于传统的区域建议网络(RPN)
实际上是以CPN生成一个类别数量,用于输入RPN(即所谓的F_RPN),得到adaptive candiddate boxes,说白了就是用CPN给RPN一个当前图像中有多少目标类别的先验。 - 评价:
想法很好,这个先验从主观上就感觉很有用,看实验结果mAP提升了4.4%。但是全文贡献点只有这一点,略微不足。
Position Detection and Direction Prediction for Arbitrary-Oriented Ships via Multiscale Rotation Region Convolutional Neural Network
来源:IEEE Access (2018)
- 代码
- 问题:
遥感图像船只检测相对于其他类型目标的检测(飞机、土地、水系、植被),目标更加小且密集,且船只往往为倾斜状态。 - 解决方案
旋转bounding box回归;旋转NMS评价; - 框架
Dense FPN + ROI + 旋转bounding box回归 + prow diraction prediction(船头方向预测) + rotational NMS - 评价:
整体思想与武汉大学发表的数据库DOTA的论文中的思路非常类似,只不过多加了一个穿透预测。创新性不是很大。但是效果显著。
You Only Look Twice: Rapid Multi-Scale Object Detection In Satellite Imagery
来源:arXiv (2019)
- 代码
- 问题:
卫星影像分析中的最大问题,就是大面积小物体的检测
YOLO中有若干问题——1.目标形变大、2.成组出现的小目标难检测、3.预测bbox的特征经过下采样后较为粗放、4.图像尺寸最大600X600 - 解决方案
1.数据增强(旋转、缩放)
2.3.新的网络结构采用更精细的特征(更稠密的网格,可以理解为较高空间分辨率)
2.3.上采样以寻找小的、密集的目标
2.3.4.多个不同尺度的检测器
4.对大图智能划分、重组
此外,采用滑窗方法提供proposal - 评价:
不同于其他方法,该文章以一幅大图(如几十万像素长宽)作为输入;因此文中考虑的更多的是一个可以直接输入大图、输出目标位置的成熟的检测系统。可以看出,这篇文章更偏工程。 - 数据库
SpaceNet
AWS上的开放数据
Reduced Focal Loss: 1st Place Solution to Xview Object Detection in Satellite Imagery
来源:arXiv (2019)
- 问题:
数据集样本不均衡问题 - 方案:
Reduced Focal Loss函数 - 数据库:
DIUx xView 2018 Detection Challenge
目前最大公开的遥感图像目标检测数据集,和ILSVRC的ImageNet数据库有一拼(因为图像较大所以图像少,但是目标数量更多)。
评价标准:
仍是mAP(31.74)、Recall(61.2%)、mRecall(77.5%)
评价:
看得出来是在Focal Loss基础上改过来的,而且是针对数据库的文章,创新性有,但是不高。
Object Detection in Very High-Resolution Aerial Images Using One-Stage Densely Connected Feature Pyramid Network
来源:Sensors (2018)
- 数据库
NWPU VHR-10
RSOD 武大四类遥感数据库 - 问题:
虽然两阶段方法优于传统方法,但它们的优化并不容易,也不适合实时应用 - 方案:
提出了一种uniform one-stage模型
采用密集连接的FPN应对多尺度挑战。 - 评价:
真正的创新点在于所提出的密集连接FPN,但是该方法并不是为了解决文章提出的主要矛盾——两阶段方法不好优化,所以创新性上打折扣
A Sample Update-Based Convolutional Neural Network Framework for Object Detection in Large-Area Remote Sensing Images
来源:IEEE Geoscience and Remote Sensing Letters (2019)
-数据库
自行标注的,500 images,500 pix,7561 airplanes,1312 ships, 2338 storage tanks
- 问题:
复杂的背景、不同的地表覆盖类型
导致虚警、漏检 - 方案:
基于样本更新的SUCNN框架
1 训练集上训练一个single-shot multibox detector(SSD);
2 在人工合成样本上fine-tune模型,合成规则——把漏检的部分叠加到虚警的目标的图上。 - 评价:
方法简单,有效,精度提升高,提升稳定,但是与难样本训练区别不大,创新性略低
Rotation-insensitive and context augmented object detection in remote sensing images
来源:IEEE Transactions on Geoscience and Remote Sensing 2018
- 数据库
NWPU VHR-10 - 问题
旋转变化、外观模糊 - 方案
为多尺度、多长宽比RPN增加了多角度anchor(实现上并不是真正意义上的多角度,仍然是一种多长宽比)
提出双通道特征融合网络,分别学习局部和上下文特征,最后进行融合 - 评价:
多角度的想法在当时比较新,但是本文实现的不是很好;局部、全局特征融合这种思路当时也比较多了。所以创新点上不是特别新颖。但是文章思路非常清晰。
Object Detection in Satellite Imagery Using 2-Step Convolutional Neural Networks
来源:IGARSS (2019)
- 数据库:
几个景的遥感图像,图像比较大,类别是高尔夫球场。 - 问题:
遥感图像太大,人眼检测目标困难。 - 解决方案:
融合两个CNN——高召回率CNN和高准确率CNN。 - 高召回率CNN:
别人文章里提到降低训练集中负样本比例,可以提高召回率,因此本文降低了训练集中的负样本比例;另外从多个snapshot的模型中找召回率最高的。 - 高准确率CNN:
将高召回率CNN得到的结果裁剪,缩放到64X64,之后用8层CNN分类。 - 评价:
提出问题、给出解决方案的思路不明显,看不到大的创新点。
Object Detection in Remote Sensing Images Based on a Scene-Contextual Feature Pyramid Network
来源:Remote Sensing (2019)
- 数据库
DOTA - 问题
复杂的背景、垂直的视角以及遥感图像中目标种类和大小的变化 - 方案
结合上下文检测目标
提出场景-上下文特征金字塔网络(SCFPN)
总之,以FPN为基础提取一些ROI的特征图;然后将整幅图的特征图和这些ROI的特征图融合,得到上下文信息,分别经过分类得到结果 - 评价:
创新点在于整幅图特征图和ROI特征图融合,手法有些粗糙,只是简单融合。
A Novel Multi-Model Decision Fusion Network for Object Detection in Remote Sensing Images
来源:Remote Sensing (2019)
- 数据库
NWPU VHR-10-v2 - 问题
地理空间对象外观的多样性和复杂性以及对地理空间对象空间结构信息的认识不足 - 方案
1 针对地理空间对象外观的多样性和复杂性,设计了一种融合 局部上下文特征 和object-object关系上下文特征的上下文信息融合子网络
2 构建基于局部的多区域融合子网络,将目标的多个部分进行融合,获取更多的目标空间结构信息,解决了对地理空间目标空间结构信息理解不足的问题
3 对所有子网络进行决策融合,提高了模型的稳定性和鲁棒性,达到了更好的检测性能
看了网络结构,发现上下文子网络(用GRU检测)、基于部分的多区域融合子网络(concatenate多个部分的特征)、基线子网络是并行的, - 评价:
创新性一般,更像是对已有工作的堆砌
Hierarchical Region Based Convolution Neural Network for Multiscale Object Detection in Remote Sensing Images
来源:IEEE IGARSS (2018)
- 数据库
自己的三个数据库
所谓三个数据库,其实是三个类别,建筑、飞机、船,
应该是在每个类别上做了一个二分类 - 问题
遥感数据是多模态的
目标尺寸从几十个像素到几百万像素 - 方案
利用多源数据进行标注
构建特征金字塔,而不图像金字塔 - 评价:
经典目标检测框架,只是在RPN和ROI检测阶段分别使用了金字塔网络。创新性不高,但逻辑没问题。
A Training-free, One-shot Detection Framework For Geospatial Objects In Remote Sensing Images
来源:arXiv (2019)
- 问题
有监督学习方法具有data-hungry、time-consuming的特点
这使得他们不适用于数据有限任务、紧急任务,尤其是遥感任务 - 方案
提出一个 无须训练、one-shot目标检测框架,包含以下几部分
1 包含遥感知识的特征提取器
2 多级特征融合方法
3 新的相似度度量方法
4 two-stage目标检测pipeline - 评价:
作者自己说文章的效果还行,可以用作其他文章方法的baseline。实验结果显示,召回率和准确率度均不超过26%。在深度学习背景下,敢于尝试这种无监督学习,有一定贡献。
Multiscale Visual Attention Networks for Object Detection in VHR Remote Sensing Images
来源:IEEE Geoscience and Remote Sensing Letters (2019)
- 数据库
DOTA
NWPU VHR-10 - 问题
目标旋转、缩放,背景杂乱 - 方案
提出MS-VANs,包括以下几个点——视觉注意力、多尺度特征、损失函数、数据增强
首先提取多尺度特征;
然后对每个尺度的特征学习一个注意力网络,从而高亮目标区域,抑制噪声。
损失函数是 分类、回归、注意力 的加权和。
所谓注意力,是一个热图,gt就是真是框内部为1,外部为0。
之后注意力mask点乘特征图。 - 评价:
目标框外0内1注意力,多尺度,都是现成的,创新点不高