CV低高等视觉及模型架构

Low-Level-Vision

主要包括:超分辨率、图像恢复、去雨、去雾、去模糊、去噪、重建等方向

  • 超分辨率(Super-Resolution)
    • 低分辨率对应物估计高分辨率图像的过程,不同放大倍数下图像特征的预测
    • bicubic interpolation、最近邻
  • 图像去雨(Image Deraining)
  • 图像去雾(Image Dehazing)
  • 去模糊(Deblurring)
  • 去噪(Denoising)
  • 图像恢复(Image Restoration)
  • 图像增强(Image Enhancement)
  • 图像重建(Image Reconstruction)
  • 图像去摩尔纹(Image Demoireing)
  • 图像阴影去除(Image Shadow Removal)
  • 图像去反射(Image Reflection Removal)
  • 图像翻译(Image Translation)
  • 插帧(Frame Interpolation)
  • 视频压缩(Video Compression)
  • 图像编辑(Image Edit)
  • 图像修复(Image Inpainting)
  • 图像质量评估(Image Quality Assessment)
  • 风格迁移(Style Transfer)

High-Level-Vision

主要包括:图像分类、检测、分割、跟踪、GAN等方向

图像分类(Image Classification)

一张图像中是否包含某种物体,对图像进行特征描述

分类任务:AlexNet、ZFNet(2013)、GoogleNet(2014)、VGGNet(2014)、ResNet(2015)、DenseNet(2016)

图像定位(Image Location)

在图像分类基础上,想知道图像中的目标在图像的具体位置

多任务学习,双输出分支(一个分支用于图像分类,全连接+softmax判断目标类别;另一分支用于判断目标位置,完成回归任务输出四个数字标记包围盒位置(bounding box, 如中心点横纵坐标和包围盒长宽))


目标检测(Object Dection)

从图像中输出单个目标的Bounding Box(边框)及标签。

R-CNN、Fast R-CNN、YOLO、SSD、R-FCN等

与目标定位区别:目标定位通常只有一个或固定数目的目标,目标检测是图像中的目标种类和数目都不确定

  • 图像目标检测(Image Object Detection)
  • 视频目标检测(Video Object Detection)
  • 三维目标检测(3D Object Detection)
  • 动作检测(Activity Detection)
  • 异常检测(Anomally Detetion)

图像分割(Image Segmentation)

  • 全景分割(Panoptic Segmentation)
  • 语义分割(Semantic Segmentation)
  • 实例分割(Instance Segmentation)
  • 抠图(Matting)

人脸(Face)


目标跟踪(Object Tracking)

给定场景中跟踪感兴趣的具体对象或多个对象过程

给出目标在跟踪视频第一帧的初始状态(位置、尺寸),自动估计目标物体在后续帧中的状态

使用SAE(自编码算法)方法:Deep Learning Tracker(DLT),提出离线预训练和在线微调

基于CNN:FCNT、MD Net

语义分割(Semantic Segmentation)

计算机视觉核心:分割,将整个图像分成像素组,对其进行标记和分类

语义分割试图在语义上理解图像中美俄像素的角色(如:汽车、摩托车等)

目标检测更进阶的任务目标检测只需要框选出每个目标的包围盒;语义分割需要进一步判断图像中哪些像素属于哪个目标

基本思路:逐像素进行图像分类,整张图像输入网络,使输出的空间大小和输入一直,通道数等于类别数,分别代表了各空间位置属于各类别的概率,即可以逐像素进行分类

FCN——输入一幅图像,直接在输出端得到密度预测,即每个像素所属的类别,从而得到端到端的方法实现图像语义分割

实例分割

与语义分割不同,物体分割不仅需要对图像中不同对象进行分类,而且需要确定它们之间的界限、差异和关系

基本思路:目标检测+语义分割。先用目标检测方法将图像中的不同实例框选,再用语义分割方法在不同包围盒内进行逐像素标记

CNN:Mask R-CNN(是在Faster R-CNN基础上添加一个分支以输出二元掩码)


重识别(Re-Identification)


医学影像(Medical Imaging)


GAN/生成式/对抗式(GAN/Generative/Adversarial)


估计(Estimation)

  • 人体姿态估计(Human Pose Estimation)
    • 试图找出人体部位的方向和构型。2D人体姿势估计或关键点检测一般是指定人体的身体部位,如寻找膝盖、眼睛、脚等二维位置
  • 手势估计(Gesture Estimation)
  • 光流/位姿/运动估计(Flow/Pose/Motion Estimation)

三维视觉(3D Vision)

  • 三维点云(3D Point Cloud)
  • 三维重建(3D Reconstruction)

模型架构与数据处理

主要包括:Transformer、NAS、模型压缩、模型评估

神经网络架构(Neural Network Structure)

  • 图神经网络(GNN)

Transformer


神经网络架构搜索(NAS)


数据处理(Data Processing)

  • 数据增广(Data Augmentation)
  • 归一化/正则化(Batch Normalization)
  • 图像聚类(Image Clustering)

模型压缩(Model Compression)

  • 知识蒸馏(Knowledge Distillation)

模型评估(Model Evaluation)


数据集(Database)

其他方向

  • 主动学习(Active Learning)
  • 小样本学习/零样本(Few-shot Learning)
  • 持续学习(Continual Learning/Life-long Learning)
  • 视觉推理(Visual Reasoning)
  • 迁移学习/domain/自适应
  • 对比学习(Contrastive Learning)
  • 图像/视频检索(Image Retrieval)
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值