阅读论文汇总

一、 检测方向

1. 检测算法

(1).Trident net

Scale-Aware Trident Networks for Object Detection

三叉戟网络,设计三个branch ,之间权重共享。每个branch使用不同的空洞卷积
在这里插入图片描述

(2).CornerNet

CornerNet: Detecting Objects as Paired Keypoints

参考: https://blog.csdn.net/weixin_40414267/article/details/82379793
ECCV2018 的文章,该文提出了一种新的检测方法,基于交点的检测,具体思想就是检测目标的左上和右下角点,然后用一种类似相似度比较的方法来进行融合。为此,作者设计了新的pool结构。
在这里插入图片描述
在这里插入图片描述

(3). Consistent Optimization

Consistent Optimization for Single-Shot Object Detection

在这里插入图片描述
文章的思路很简单,提出在one stage目标检测中影响网络精度的一个原因在于优化的目标与inference设置的不一致性(misalignment between the optimization target and inference configurations),解释来说就是,现在流行的目标检测方法,一般会有两个分支,一个分类,一个坐标框回归,而这两个分支往往是独立的,都是对原始anchor进行处理,这就会带来一个问题,我们在进行分类的时候,使用的是原始的anchor,而在坐标框回归后,很可能回归后的anchor与原始anchor已经产生了不同,这样使用原始anchor的分类结果作为回归后的anchor的分类得分就不准确了,本篇论文就是围绕着解决这个问题来进行的。
最简单的方法,我们将优化后的anchor的gt交给分类,然后利用上面的分类loss进行训练,作者说明,这个方法是有效的,这个应该理解,再进一步的,就是作者推荐的,不仅仅是将优化后的anchor交给分类,坐标回归也同样进行两次,即在第一次回归的基础上,再进行一次回归(我猜想这就可以解决前面提到的第二个问题,容易产生混淆的问题),最终给出结果,至于怎么回归两次,其实就是在倒数第二层输出回归offset的时候,多输出4个offset,作为第二次的结果,而这4个的gt是第一次优化后anchor重新求的gt。
ref: https://blog.csdn.net/chunfengyanyulove/article/details/86708549

(4). AdaScale

AdaScale: Towards Real-time Video Object Detection Using Adaptive
Scaling

视频目标检测
我们的结果表明将图像的尺寸重新调整到更低的分辨率时,有时会得到更好的准确度。基于这一观察,我们提出了一种全新的方法 AdaScale,可以自适应地选择输入图像的尺寸,从而同时提升视频目标检测的准确度和速度。
在视频目标检测方面还存在一些特有的挑战,包括由物体移动造成的运动模糊、相机对焦失败(Zhu et al., 2017a)以及自动智能体的实时速度限制。但是,除了这些难题之外,视频目标检测也会带来可以利用的新机会。之前一些关注视频目标检测的研究试图通过利用视频的一种独特特征来提升平均精度(Zhu et al., 2017a; Feichtenhofer et al., 2017; Kang et al., 2017),即时间一致性(连续帧有相似的内容)。
在这里插入图片描述
在这里插入图片描述
算法修改主要集中于其decode模块

(5).Bag of Freebies

Bag of Freebies for Training Object Detection Neural Networks

在这里插入图片描述

Visually Coherent Image Mixup:图像加权融合
Classification Head Label Smoothing:分类平滑
Synchronize batchnorm
Random shapes training:随机尺寸,
在这里插入图片描述

(6).Augmentation for small object

Augmentation for small object detection

小目标数据增广

  1. Oversampling
    在第一组实验中,我们研究了包含小目标的过采样图像的影响。我们在实验中改变了过采样率。我们创建了多个图像副本,而不是实际的随机过采样,以提高效率。
  2. Augmentation
    在第二组实验中,我们研究了使用增强对小目标检测和分割的影响。 我们复制并粘贴每个图像中的所有小目标一次。 我们还用对含有小目标的图像进行过采样,以研究过采样和增强策略之间的相互作用。
    我们测试了三种设置。 在第一个设置中,我们用带有 copy-pasted 的小目标的图像替换每个图像。在第二个设置中,我们复制这些增强图像以模拟过采样。在最终设置中,我们保留原始图像和增强图像,这相当于用小目标对图像进行过度采样两倍,同时用更小的目标扩充复制的副本。
  3. Copy-Pasting Strategies
    有不同的方法来复制粘贴小目标。我们考虑三种策略。 首先,我们在图像中选择一个小目标,并在随机位置复制粘贴多次。 其次,我们选择了许多小目标,并在任意位置复制粘贴这些目标一次。 最后,我们在随机位置多次复制粘贴每个图像中的所有小目标。 在所有情况下,我们使用上面第三个增强设置; 也就是说,我们保留原始图像和增强副本。
  4. Pasting Algorithms
    粘贴小目标的副本时,有两件事需要考虑。 首先,我们必须确定粘贴的目标是否会与任何其他目标重叠。虽然我们选择不引入任何重叠,但我们通过实验验证它是否是一个好的策略。其次,是否执行添加过程以平滑粘贴对象的边缘是一种设计选择。我们试验具有不同滤波器尺寸的边界的高斯模糊是否可以帮助进一步处理。

ref:https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247487431&idx=1&sn=85969c79dfaf1db1076b428a7f88a2f9&chksm=f9a27d48ced5f45e4f4508d78f109ada8471912acd2ac0637b4308798a66692dd43f1f9834ed&scene=21#wechat_redirect

https://blog.csdn.net/github_36923418/article/details/86612010

(7).SimpleDet

SimpleDet: A Simple and Versatile Distributed Framework for Object
Detection and Instance Recognition

开源检测框架,有机会可以搞一搞,不过可惜是mxnet

(8).ThunderNet

ThunderNet: Towards Real-time Generic Object Detection

实时目标检测,速度快

在这里插入图片描述
一、改进速度。

  1. 使用轻量级、面向目标检测任务设计的骨干网Snet。
  2. 压缩RPN网络部分,降低候选目标区域生成的时间。
  3. R-CNN子网络使用1024维的全连接层,提高速度。
    二、改进特征表示的鉴别性。
  4. 设计了上下文增强模块CEM结构,它可以有效结合三个尺度的特征图,编码更多的上下文信息,增大感受野,生成更具鉴别性的特征。
    在这里插入图片描述
  5. 设计了空间注意力模块SAM结构,它可以利用RPN中学习到的信息,从上下文增强模块提精特征图的特征分布。
    在这里插入图片描述
(9).Gradient Harmonized Mechanism

Gradient Harmonized Mechanism
在这里插入图片描述

我们来理一理,什么意思呢,就是看图,上图,0-0.2 是易学习样本,取值越大,越难学习,然后呢,在1的附近的可以是为标记错误,比较人的标记有时也会出问题,我们认为这是错误样本,总而言之,loss=loss/密度,密度越大,权重越小,所以我们只需关注0.2-0.8之间的样本就ok了,增大难学习样本 的权重,至于1附近的,只能:标记人员,你给我过来,再标记不好不许吃晚饭!
在这里插入图片描述

(10)BlitzNet

BlitzNet: A Real-Time Deep Network for Scene Understanding

在这里插入图片描述

2. 文本检测

(1).PSENet

PSENet:Shape Robust Text Detection with Progressive Scale Expansion
Network

参考: https://blog.csdn.net/weixin_43624538/article/details/88630494
文章提出了渐进尺度扩展算法来解决文本间间隔的问题,主要结构如下所示:
在这里插入图片描述

通过渐进尺度融合来处理文本检测不完整问题。
在这里插入图片描述

(2).EAST

EAST: An Efficient and Accurate Scene Text Detector

参考: https://zhuanlan.zhihu.com/p/37504120
没什么可说的,多尺度文本检测,loss可以研究。
在这里插入图片描述

S.待读

Understanding the Effective Receptive Field in Deep Convolutional Neural Networks:感受野
Weight Standardization :继gn后的有一种norm 方法
openpose:实时人体姿态估计

S+.待写

YOLACT
Soft-Nms
GIoU

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值