Low-Level-Vision
主要包括:超分辨率、图像恢复、去雨、去雾、去模糊、去噪、重建等方向
- 超分辨率(Super-Resolution)
- 低分辨率对应物估计高分辨率图像的过程,不同放大倍数下图像特征的预测
- bicubic interpolation、最近邻
- 图像去雨(Image Deraining)
- 图像去雾(Image Dehazing)
- 去模糊(Deblurring)
- 去噪(Denoising)
- 图像恢复(Image Restoration)
- 图像增强(Image Enhancement)
- 图像重建(Image Reconstruction)
- 图像去摩尔纹(Image Demoireing)
- 图像阴影去除(Image Shadow Removal)
- 图像去反射(Image Reflection Removal)
- 图像翻译(Image Translation)
- 插帧(Frame Interpolation)
- 视频压缩(Video Compression)
- 图像编辑(Image Edit)
- 图像修复(Image Inpainting)
- 图像质量评估(Image Quality Assessment)
- 风格迁移(Style Transfer)
High-Level-Vision
主要包括:图像分类、检测、分割、跟踪、GAN等方向
图像分类(Image Classification)
一张图像中是否包含某种物体,对图像进行特征描述
分类任务:AlexNet、ZFNet(2013)、GoogleNet(2014)、VGGNet(2014)、ResNet(2015)、DenseNet(2016)
图像定位(Image Location)
在图像分类基础上,想知道图像中的目标在图像的具体位置
多任务学习,双输出分支(一个分支用于图像分类,全连接+softmax判断目标类别;另一分支用于判断目标位置,完成回归任务输出四个数字标记包围盒位置(bounding box, 如中心点横纵坐标和包围盒长宽))
目标检测(Object Dection)
从图像中输出单个目标的Bounding Box(边框)及标签。
R-CNN、Fast R-CNN、YOLO、SSD、R-FCN等
与目标定位区别:目标定位通常只有一个或固定数目的目标,目标检测是图像中的目标种类和数目都不确定
- 图像目标检测(Image Object Detection)
- 视频目标检测(Video Object Detection)
- 三维目标检测(3D Object Detection)
- 动作检测(Activity Detection)
- 异常检测(Anomally Detetion)
图像分割(Image Segmentation)
- 全景分割(Panoptic Segmentation)
- 语义分割(Semantic Segmentation)
- 实例分割(Instance Segmentation)
- 抠图(Matting)
人脸(Face)
目标跟踪(Object Tracking)
给定场景中跟踪感兴趣的具体对象或多个对象过程
给出目标在跟踪视频第一帧的初始状态(位置、尺寸),自动估计目标物体在后续帧中的状态
使用SAE(自编码算法)方法:Deep Learning Tracker(DLT),提出离线预训练和在线微调
基于CNN:FCNT、MD Net
语义分割(Semantic Segmentation)
计算机视觉核心:分割,将整个图像分成像素组,对其进行标记和分类
语义分割试图在语义上理解图像中美俄像素的角色(如:汽车、摩托车等)
是目标检测更进阶的任务,目标检测只需要框选出每个目标的包围盒;语义分割需要进一步判断图像中哪些像素属于哪个目标
基本思路:逐像素进行图像分类,整张图像输入网络,使输出的空间大小和输入一直,通道数等于类别数,分别代表了各空间位置属于各类别的概率,即可以逐像素进行分类
FCN——输入一幅图像,直接在输出端得到密度预测,即每个像素所属的类别,从而得到端到端的方法实现图像语义分割
实例分割
与语义分割不同,物体分割不仅需要对图像中不同对象进行分类,而且需要确定它们之间的界限、差异和关系
基本思路:目标检测+语义分割。先用目标检测方法将图像中的不同实例框选,再用语义分割方法在不同包围盒内进行逐像素标记
CNN:Mask R-CNN(是在Faster R-CNN基础上添加一个分支以输出二元掩码)
重识别(Re-Identification)
医学影像(Medical Imaging)
GAN/生成式/对抗式(GAN/Generative/Adversarial)
估计(Estimation)
- 人体姿态估计(Human Pose Estimation)
- 试图找出人体部位的方向和构型。2D人体姿势估计或关键点检测一般是指定人体的身体部位,如寻找膝盖、眼睛、脚等二维位置
- 手势估计(Gesture Estimation)
- 光流/位姿/运动估计(Flow/Pose/Motion Estimation)
三维视觉(3D Vision)
- 三维点云(3D Point Cloud)
- 三维重建(3D Reconstruction)
模型架构与数据处理
主要包括:Transformer、NAS、模型压缩、模型评估
神经网络架构(Neural Network Structure)
-
图神经网络(GNN)
Transformer
神经网络架构搜索(NAS)
数据处理(Data Processing)
- 数据增广(Data Augmentation)
- 归一化/正则化(Batch Normalization)
- 图像聚类(Image Clustering)
模型压缩(Model Compression)
- 知识蒸馏(Knowledge Distillation)
模型评估(Model Evaluation)
数据集(Database)
其他方向
- 主动学习(Active Learning)
- 小样本学习/零样本(Few-shot Learning)
- 持续学习(Continual Learning/Life-long Learning)
- 视觉推理(Visual Reasoning)
- 迁移学习/domain/自适应
- 对比学习(Contrastive Learning)
- 图像/视频检索(Image Retrieval)