本文完全自用,看了三十来篇论文的Abstract、Introduction和Related Work,只是想知道一些方向的人在做什么、怎么做的,有些方法可能写的完全不对,但是我现在只要知道有这种方法就行了
一、二维
方向:
括号内数字是2019CVPR录用数量
图像分类、识别(19)(好像有点晚了)
目标检测(38)(很火的,很多人都在做)
二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。
SIGAI目标检测总结与展望
目标检测至今仍然是计算机视觉领域较为活跃的一个研究方向,虽然One-Stage检测算法和Two-Stage检测算法都取得了很好的效果,但是对于真实场景下的应用还存在一定差距,目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。
论文:
- Stereo R-CNN based 3D Object Detection for Autonomous Driving
现在的大多方法还严重依赖激光雷达,单目深度测不准,作者使用了立体相机,左右照射,基于区域的光度校准,不需要深度输入,用一个新的分支来预测稀疏关键点、视点、对象维度。
作者认为3D目标定位是深度学习辅助几何的问题,而不是端到端的回归问题。
- Generalized Intersection over Union
引入广义GIoU,人们对性能提升的注意力主要放在了架构和提取特征,忽略了改进IoU
- ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape
一种基于深度学习的3D单目检测和特征提取方法,对6D位姿估计和纹理恢复方面效果不错,作者还提出了新的loss公式。
单目图像的深度学习方法已经证明与多传感器方法相比,在三维目标检测,6D位姿跟踪,深度预测,或形状恢复等重要的不适定问题上具有竞争力。作者的改进主要是通过合并强隐式或显式先验来实现的,这些先验将约束不足的输出空间规则化为几何相干解。
- Bi-Directional Cascade Network for Perceptual Edge Detection
边缘检测,提出了一个双向级联网络结构,主要是在多尺度方向上的突破。图像边缘检测可以看作分割、检测、识别的基础。性能已经提到了0.815,但还有提升空间
边缘检测方面存在的问题:1.对象级边界和局部细节:(人体轮廓和手势形状)。有些人用很深的网络,想获得多尺度特征,但是很难训练,推断成本也很高,作者引入了一个尺度增强模型(SEM)。2.CNN网络问题
- RepMet: Representative-based metric learning for classification and few-shot object detection
距离度量学习(DML),在分类的模型上作者做出了创新,用的是多种模式的混合模型来表示每一个类,作者还提出了一个数据集。每类只有几个训练样本来训练分类器的小概率学习问题,DML在小镜头目标检测和目标分类方面很有效。few-shot对象检测,端到端。
三个贡献:架构;DML;基准
- Region Proposal by Guided Anchoring
新的anchor生成方法,现在的一些方法都是密集固定anchor方案,但固定的anchor有两个问题:1.针对不同的问题,要重新定义更好的 2。为了维持足够高的recall,选用大量anchor。
作者的这种方法在Fast RCNN、Faster RCNN、RetinaNet中都有提高。生成anchor有两个准则:对齐和一致性。提出这个方案的动机是观察到物体不是均匀的分布在图像上,所以就想生成稀疏anchor。
- Less is More: Learning Highlight Detection from Video Duration
高光检测有可能极大地简化视频浏览,现在的多是有监督地,需要人类手动识别视频中的高光,作者利用视频时长提出了一个无监督地解决方法,更倾向于短视频。
- AIRD: Adversarial Learning Framework for Image Repurposing Detection
谣言检测和语义完整性检测是较新的研究领域,这一块主要问题是缺少训练和评估的数据,作者设计了一个对抗图像重设检测(AIRD),自己来伪造数据,然后对抗,AIRD包括两个模型:一个伪造者和一个检测器,他们是反向训练的。
- Learning Attraction Field Representation for Robust Line Segment Detection
线段检测,得到线段地图来提供紧凑的结构信息,方便许多高层视觉任务 ,如3D侦察结构,图像分割,立体匹配,场景解析,相机姿态估计,图像拼接等。LSD分两步:线热图生成和线段模型拟合。
- Feature Selective Anchor-Free Module for Single-Shot Object Detection
提出了一种简单有效的单镜头目标检测模块:特征选择无anchor模块FSAF,它可以插入具有特征金字塔结构的单镜头探测器。FSAF模块解决了传统锚固检测带来的两个局限性:1)启发式引导的有限元结构选择???;2)基于覆盖锚取样。FSAF在coco上比基于anchor的同类模块更好,同时引入了几乎free的推理开销,44.6%的map
针对的是尺度变化这一难点,针对这一难点大多使用的多级特征金字塔。
图像分割(也很火,比检测难,但用到分割的方向很多)(50)
FCN让语义分割有了很大的进步,目前视频语义分割主要研究的重点大致有两个方向:第一个是如何利用视频帧之间的时序信息来提高图像分割的精度,第二个是如何利用帧之间的相似性来减少模型计算量,提高模型的运行速度和吞吐量。
论文:
- Attention-guided Unified Network for Panoptic Segmentation
将实例分割和语义分割结合,一种全光分割。
利用上下文信息,注意力选择空间特征,基于分割来聚合线索等。
- Data augmentation using learned transformations for one-shot medical image segmentation
提出了一种自动标注的方法。主要针对医学图像
- FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation
之前的方法都过于依赖第一帧的掩码(siammask就是如此),然后后面的自动生成。为了最大限度地保证视频对象的实际能力,本文提出了一种视频对象分割方法,设计目标如下:1.一种VOS方法应