Day 1 --- 计算机视觉与OpenMMLab开源算法体系

本文链接：https://blog.csdn.net/selectnothing/article/details/128844584

一、常见的CV任务与区别

图像分类：图像层面，最基础的任务，常作为目标检测、图像分割任务的BackBone提取图像特征
目标检测：像素粒度（细粒度），对图像中的目标物体进行框选检测，分通用目标检测与特定目标检测两方面，人脸识别属于特定目标检测，识别世界中大千万物属于通用目标检测
语义分割：像素粒度，对图像中的单类或多类物体进行分割，仅可按照类别进行区分，同类物体具有相同的像素值
实例分割：像素粒度，对图像中的单个或多个物体进行分割，不同于语义分割，实例分割可分割出同类中的不同物体，每个物体具有单独的像素值以供区分

二、计算机视觉的发展之路

早期萌芽阶段：以Robert算子为代表的边缘检测算法提出，为计算机视觉的发展做出了不可磨灭的贡献
机器学习阶段：将机器学习技术应用到计算机视觉领域，EigenFace和Adaboost等机器学习方法开始将人脸识别领域推向实用化。
特征工程阶段：传统任务中，研究者常常针对实际场景进行特征工程，手动设计底层特征进行CV任务，不同的目标对象具备不同的滤波器提取特征，泛用性极差。
数据驱动：2006年，李飞飞教授启动了ImageNet数据库项目，机器可以通过学习大量数据，去自主学习出图像特征。无需手动构造。
视觉系统：2010年NEC-UIUC集合了层次结构、边缘检测以及机器学习方法，构建出一个完整的视觉分类系统，但仍未摆脱手动构造特征
深度学习阶段：AlexNet的提出使得计算机视觉取得了突破性的进展，7层卷积结构相较传统方法取得了接近10%的提升，计算机视觉正式步入深度学习时代。
当今现状：以大模型为基础的AIGC开始成为新的内容生产方式，在AI绘画、AI写作等方向均取得了显著的进展。各大厂商也纷纷开始构建属于自己的视觉大模型。

三、OpenMMLab简介

常用的深度学习框架：theano、Caffe、TF、mxnet、Jax、Pytorch等
OpenMMLab是基于Pytorch所开发的Code Base，以Pytorch为底层，内含大量视觉算法库可供调用。目前OpenMMLab提供了统一先进的底层架构支持，覆盖目标检测、轨迹检测、视觉超分以及图像生成等诸多计算机视觉方向，同时提供了SOTA算法支持，可轻松实现base的部署调用。

常用算法框架：

MMDetection：目标检测开源工具箱，支持Faster R-CNN以及Mask R-CNN等诸多主流算法和顶会SOTA方案。
MMClassification：图像分类开源工具箱，具备从VGG到Swin-Transformer等40+预训练模型和大量主流数据集支持
MMSegmentation：图像分割开源工具箱，针对无人驾驶、遥感以及医疗影像分割领域，实现了30+以上论文复现和420+预训练模型，同时提供大量消融实验方案，以便实现公平对比
MMEditing：对当前火热的图像生成、修复以及视觉超分领域提供15种以上的算法支持和30多个预训练模型，通过几行代码即可轻松调用

OpenMMLab 2.0：

相较于1.0版本，2.0时代的OpenMMLab主要特点在于统一化和通用化，在实现了设备、大规模训练以及流行算法库的通用支持后，对1.0版本的模块抽象、训练流程以及数据接口进行了统一化。多个算法库仅需一套接口定义和一套统一的训练流程即可完成，同时对日志和模型结构实现了灵活可视化，以便用户进行分析。预计在年内完成迁移。