CV低高等视觉及模型架构

JYliangliang

已于 2022-03-31 10:31:51 修改

阅读量3k

点赞数 1

分类专栏：深度学习文章标签：机器学习

于 2022-03-30 14:17:23 首次发布

本文链接：https://blog.csdn.net/jiangyangll/article/details/123842839

版权

深度学习专栏收录该内容

43 篇文章 17 订阅

订阅专栏

Low-Level-Vision

主要包括：超分辨率、图像恢复、去雨、去雾、去模糊、去噪、重建等方向

超分辨率（Super-Resolution）
- 低分辨率对应物估计高分辨率图像的过程，不同放大倍数下图像特征的预测
- bicubic interpolation、最近邻
图像去雨（Image Deraining）
图像去雾（Image Dehazing）
去模糊（Deblurring）
去噪（Denoising）
图像恢复（Image Restoration）
图像增强（Image Enhancement）
图像重建（Image Reconstruction）
图像去摩尔纹（Image Demoireing）
图像阴影去除(Image Shadow Removal)
图像去反射（Image Reflection Removal）
图像翻译（Image Translation）
插帧（Frame Interpolation）
视频压缩（Video Compression）
图像编辑(Image Edit)
图像修复（Image Inpainting）
图像质量评估（Image Quality Assessment）
风格迁移（Style Transfer）

High-Level-Vision

主要包括：图像分类、检测、分割、跟踪、GAN等方向

图像分类（Image Classification）

一张图像中是否包含某种物体，对图像进行特征描述

分类任务：AlexNet、ZFNet(2013)、GoogleNet(2014)、VGGNet(2014)、ResNet(2015)、DenseNet(2016)

图像定位（Image Location）

在图像分类基础上，想知道图像中的目标在图像的具体位置

多任务学习，双输出分支（一个分支用于图像分类，全连接+softmax判断目标类别；另一分支用于判断目标位置，完成回归任务输出四个数字标记包围盒位置(bounding box，如中心点横纵坐标和包围盒长宽)）

目标检测（Object Dection）

从图像中输出单个目标的Bounding Box(边框)及标签。

R-CNN、Fast R-CNN、YOLO、SSD、R-FCN等

与目标定位区别：目标定位通常只有一个或固定数目的目标，目标检测是图像中的目标种类和数目都不确定

图像目标检测(Image Object Detection)
视频目标检测(Video Object Detection)
三维目标检测(3D Object Detection)
动作检测(Activity Detection)
异常检测(Anomally Detetion)

图像分割(Image Segmentation)

全景分割(Panoptic Segmentation)
语义分割(Semantic Segmentation)
实例分割(Instance Segmentation)
抠图(Matting)

人脸(Face)

目标跟踪(Object Tracking)

给定场景中跟踪感兴趣的具体对象或多个对象过程

给出目标在跟踪视频第一帧的初始状态（位置、尺寸），自动估计目标物体在后续帧中的状态

使用SAE（自编码算法）方法：Deep Learning Tracker(DLT)，提出离线预训练和在线微调

基于CNN：FCNT、MD Net

语义分割（Semantic Segmentation）

计算机视觉核心：分割，将整个图像分成像素组，对其进行标记和分类

语义分割试图在语义上理解图像中美俄像素的角色（如：汽车、摩托车等）

是目标检测更进阶的任务，目标检测只需要框选出每个目标的包围盒；语义分割需要进一步判断图像中哪些像素属于哪个目标

基本思路：逐像素进行图像分类，整张图像输入网络，使输出的空间大小和输入一直，通道数等于类别数，分别代表了各空间位置属于各类别的概率，即可以逐像素进行分类

FCN——输入一幅图像，直接在输出端得到密度预测，即每个像素所属的类别，从而得到端到端的方法实现图像语义分割

实例分割

与语义分割不同，物体分割不仅需要对图像中不同对象进行分类，而且需要确定它们之间的界限、差异和关系

基本思路：目标检测+语义分割。先用目标检测方法将图像中的不同实例框选，再用语义分割方法在不同包围盒内进行逐像素标记

CNN：Mask R-CNN(是在Faster R-CNN基础上添加一个分支以输出二元掩码)

重识别(Re-Identification)

医学影像(Medical Imaging)

GAN/生成式/对抗式(GAN/Generative/Adversarial)

估计(Estimation)

人体姿态估计(Human Pose Estimation)
- 试图找出人体部位的方向和构型。2D人体姿势估计或关键点检测一般是指定人体的身体部位，如寻找膝盖、眼睛、脚等二维位置
手势估计(Gesture Estimation)
光流/位姿/运动估计(Flow/Pose/Motion Estimation)

三维视觉(3D Vision)

三维点云(3D Point Cloud)
三维重建(3D Reconstruction)

模型架构与数据处理

主要包括：Transformer、NAS、模型压缩、模型评估

神经网络架构(Neural Network Structure)

图神经网络(GNN)

Transformer

神经网络架构搜索(NAS)

数据处理(Data Processing)

数据增广(Data Augmentation)
归一化/正则化(Batch Normalization)
图像聚类(Image Clustering)

模型压缩(Model Compression)

知识蒸馏(Knowledge Distillation)

模型评估(Model Evaluation)

数据集(Database)

其他方向

主动学习（Active Learning）
小样本学习/零样本（Few-shot Learning）
持续学习（Continual Learning/Life-long Learning）
视觉推理（Visual Reasoning）
迁移学习/domain/自适应
对比学习（Contrastive Learning）
图像/视频检索（Image Retrieval）

JYliangliang

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CV低高等视觉及模型架构

Low-Level-Vision主要包括：超分辨率、图像恢复、去雨、去雾、去模糊、去噪、重建等方向1.超分辨率（Super-Resolution） 2.图像去雨（Image Deraining） 3.图像去雾（Image Dehazing） 4.去模糊（Deblurring） 5.去噪（Denoising） 6.图像恢复（Image Restoration） 7.图像增强（Image Enhancement） 8.图像去摩尔纹（Image Demoireing） 9.图像阴影去除(I
复制链接

扫一扫

专栏目录