2019计算机视觉方向调研

本文全面调研了2019年计算机视觉领域的进展,涵盖二维图像处理的多个子领域,如图像分类、目标检测、分割、行为识别等。在二维方向上,目标检测和分割尤为活跃,而三维重建与点云处理仍面临挑战。此外,针对水下图像的处理和增强也是重要研究方向。文章指出,尽管深度学习取得显著成果,但仍存在如滤波器优化、单目标跟踪等问题待解决,未来研究可能聚焦于更精细的任务如3D目标检测和三维重建的优化。
摘要由CSDN通过智能技术生成

本文完全自用,看了三十来篇论文的Abstract、Introduction和Related Work,只是想知道一些方向的人在做什么、怎么做的,有些方法可能写的完全不对,但是我现在只要知道有这种方法就行了

一、二维

CVPR进展

方向:

括号内数字是2019CVPR录用数量

图像分类、识别(19)(好像有点晚了)

在这里插入图片描述

目标检测(38)(很火的,很多人都在做)

SIGAI目标检测综述

二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。
SIGAI目标检测总结与展望
目标检测至今仍然是计算机视觉领域较为活跃的一个研究方向,虽然One-Stage检测算法和Two-Stage检测算法都取得了很好的效果,但是对于真实场景下的应用还存在一定差距,目标检测这一基本任务仍然是非常具有挑战性的课题,存在很大的提升潜力和空间。

论文

  1. Stereo R-CNN based 3D Object Detection for Autonomous Driving

现在的大多方法还严重依赖激光雷达,单目深度测不准,作者使用了立体相机,左右照射,基于区域的光度校准,不需要深度输入,用一个新的分支来预测稀疏关键点、视点、对象维度。
作者认为3D目标定位是深度学习辅助几何的问题,而不是端到端的回归问题。
在这里插入图片描述

  1. Generalized Intersection over Union

引入广义GIoU,人们对性能提升的注意力主要放在了架构和提取特征,忽略了改进IoU
在这里插入图片描述

  1. ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape

一种基于深度学习的3D单目检测和特征提取方法,对6D位姿估计和纹理恢复方面效果不错,作者还提出了新的loss公式
单目图像的深度学习方法已经证明与多传感器方法相比,在三维目标检测,6D位姿跟踪,深度预测,或形状恢复等重要的不适定问题上具有竞争力。作者的改进主要是通过合并强隐式或显式先验来实现的,这些先验将约束不足的输出空间规则化为几何相干解。

  1. Bi-Directional Cascade Network for Perceptual Edge Detection

边缘检测,提出了一个双向级联网络结构,主要是在多尺度方向上的突破。图像边缘检测可以看作分割、检测、识别的基础。性能已经提到了0.815,但还有提升空间
边缘检测方面存在的问题:1.对象级边界和局部细节:(人体轮廓和手势形状)。有些人用很深的网络,想获得多尺度特征,但是很难训练,推断成本也很高,作者引入了一个尺度增强模型(SEM)。2.CNN网络问题

  1. RepMet: Representative-based metric learning for classification and few-shot object detection

距离度量学习(DML),在分类的模型上作者做出了创新,用的是多种模式的混合模型来表示每一个类,作者还提出了一个数据集。每类只有几个训练样本来训练分类器的小概率学习问题,DML在小镜头目标检测和目标分类方面很有效。few-shot对象检测,端到端。
三个贡献:架构;DML;基准

  1. Region Proposal by Guided Anchoring

新的anchor生成方法,现在的一些方法都是密集固定anchor方案,但固定的anchor有两个问题:1.针对不同的问题,要重新定义更好的 2。为了维持足够高的recall,选用大量anchor。
作者的这种方法在Fast RCNN、Faster RCNN、RetinaNet中都有提高。生成anchor有两个准则:对齐和一致性。提出这个方案的动机是观察到物体不是均匀的分布在图像上,所以就想生成稀疏anchor。
在这里插入图片描述

  1. Less is More: Learning Highlight Detection from Video Duration

高光检测有可能极大地简化视频浏览,现在的多是有监督地,需要人类手动识别视频中的高光,作者利用视频时长提出了一个无监督地解决方法,更倾向于短视频。

  1. AIRD: Adversarial Learning Framework for Image Repurposing Detection

谣言检测和语义完整性检测是较新的研究领域,这一块主要问题是缺少训练和评估的数据,作者设计了一个对抗图像重设检测(AIRD),自己来伪造数据,然后对抗,AIRD包括两个模型:一个伪造者和一个检测器,他们是反向训练的。

  1. Learning Attraction Field Representation for Robust Line Segment Detection

线段检测,得到线段地图来提供紧凑的结构信息,方便许多高层视觉任务 ,如3D侦察结构,图像分割,立体匹配,场景解析,相机姿态估计,图像拼接等。LSD分两步:线热图生成和线段模型拟合。
在这里插入图片描述

  1. Feature Selective Anchor-Free Module for Single-Shot Object Detection

提出了一种简单有效的单镜头目标检测模块:特征选择无anchor模块FSAF,它可以插入具有特征金字塔结构的单镜头探测器。FSAF模块解决了传统锚固检测带来的两个局限性:1)启发式引导的有限元结构选择???;2)基于覆盖锚取样。FSAF在coco上比基于anchor的同类模块更好,同时引入了几乎free的推理开销,44.6%的map
针对的是尺度变化这一难点,针对这一难点大多使用的多级特征金字塔。
在这里插入图片描述
在这里插入图片描述

图像分割(也很火,比检测难,但用到分割的方向很多)(50)

SIGAI视频语义分割

FCN让语义分割有了很大的进步,目前视频语义分割主要研究的重点大致有两个方向:第一个是如何利用视频帧之间的时序信息来提高图像分割的精度,第二个是如何利用帧之间的相似性来减少模型计算量,提高模型的运行速度和吞吐量。

三种分割的区别

论文

  1. Attention-guided Unified Network for Panoptic Segmentation

实例分割和语义分割结合,一种全光分割。
利用上下文信息,注意力选择空间特征,基于分割来聚合线索等。
在这里插入图片描述
在这里插入图片描述

  1. Data augmentation using learned transformations for one-shot medical image segmentation

提出了一种自动标注的方法。主要针对医学图像
在这里插入图片描述

  1. FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation

之前的方法都过于依赖第一帧的掩码(siammask就是如此),然后后面的自动生成。为了最大限度地保证视频对象的实际能力,本文提出了一种视频对象分割方法,设计目标如下:1.一种VOS方法应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值