计算机视觉发展&&初识OpenMMLab

最新推荐文章于 2023-11-30 10:37:13 发布

今天no1

最新推荐文章于 2023-11-30 10:37:13 发布

阅读量406

点赞数

分类专栏：计算机视觉文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/liangjinghuino1/article/details/128853091

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

初识OpenMMLab

OpenMMLab是一个适用于学术研究和工业应用的开源算法体系，涵盖了计算机视觉的许多研究课题，于2018年10月启动。主要包括2部分：开源项目和开放数据集。以下内容主要摘自于：https://openmmlab.com/
开源项目：https://github.com/open-mmlab ，包含很多项目，由于每个项目起始开发时间不同，因此各个项目发布版本并不统一，有些项目版本更新较快。
1.MMCV：是一个面向计算机视觉的基础库，它支持很多开源项目，如MMDetection、MMOCR等。最新发布版本为v1.6.1。
2.MMDetection：是一个基于PyTorch的目标检测开源工具箱。最新发布版本为v2.25.1。
3.MMDetection3D：是一个基于PyTorch的目标检测开源工具箱，下一代面向3D检测的平台。最新发布版本为v1.0.0rc3。
4.MMEditing：是一个基于PyTorch的图像&视频编辑开源工具箱，支持超分辨率、修复、抠图、视频插值等。最新发布版本为v0.15.1。
5.MMAction2：是一个基于PyTorch的视频理解开源工具箱。最新发布版本为v0.24.1。
6.MMSegmentation：是一个基于PyTorch的语义分割开源工具箱。最新发布版本为v0.27.0。
7.MMClassification：是一个基于PyTorch的开源图像分类工具箱。最新发布版本为v0.23.2。
8.MMPose：是一个基于PyTorch的姿态分析的开源工具箱。最新发布版本为v0.28.1。
9.MMTracking：是一个基于PyTorch的视频目标感知开源工具箱。最新发布版本为v0.13.0。
10.MMOCR：是一个基于PyTorch和MMDetection的开源工具箱，专注于文本检测，文本识别以及相应的下游任务，如关键信息提取。最新发布版本为v0.6.0。
11.MMGeneration：是一个基于PyTorch和MMCV的强有力的生成模型工具箱，尤其专注于GAN模型。最新发布版本为v0.7.1。
12.MMRotate：是一个基于PyTorch的旋转框检测的开源工具箱。最新发布版本为v0.3.2。
13.MMDeploy：是OpenMMLab模型部署工具箱，为各算法库提供统一的部署体验。最新发布版本为v0.6.0。
14.MMRazor：是一个可用于模型瘦身和AutoML的模型压缩工具箱。最新发布版本为v0.3.1。
15.MMHuman3D：是一个基于PyTorch的人体参数化模型的开源工具箱。最新发布版本为v0.9.0。
16.MMSelfSup：是一个基于PyTorch实现的开源自监督表征学习工具箱。最新发布版本为v0.9.2。
17.MMFlow：是一个基于PyTorch的光流工具箱。最新发布版本为v0.5.1。
18.MMFewShot：是一个基于PyTorch的少样本学习代码库。最新发布版本为v0.1.0。
开放数据集：不支持匿名下载
1.DeeperForensics-1.0 Dataset：是用于现实世界中人脸伪造检测的新数据集。
2.FineGym：一个基于体操运动视频建立的新数据集。
3.MovieNet：是用于全面理解电影的数据集。
4.MessyTable：包含大量从多个摄像机视图中捕获的混乱的桌子的场景。
5.Placepedia：包含24万个地点，其中包含来自世界各地的3500万张图片。
6.TAPOS：是一个基于体育视频构建的，带有子动作人工标注的新数据集。
7.CULane：是一个大规模的极具挑战性的车道线检测学术数据集。
8.DeepFashion Dataset：是一个大型服装数据库。
9.FashionGAN Dataset：是基于DeepFashion数据集的子集上新标注(语言和分段映射)的数据集。
10.kinetics-skeleton：是一个基于骨骼的人体理解的数据集。
11.OST dataset：室外场景数据集。
12.Web Image Dataset for Event Recognition(WIDER)：是用于从静态图像识别复杂事件的数据集。
13.Wider 2019：数据集围绕人脸和身体的精确定位以及身份的精确识别这一问题。
14.WIDER ATTRIBUTE Dataset：是人类属性识别基准数据集，其图像是从可公开获得的WIDER数据集中选择的。
15.WIDER FACE Dataset：是一个面部检测基准数据集，其图像是从可公开获得的WIDER数据集中选择的。
16.WildLife Documentary(WLD) Dataset：包含从YouTube下载的15部纪录片，其时长从9分钟到长达50分钟不等，并且总帧数超过747000。
17.CUHK Face Sketch FERET Database(CUFSF)：用于人脸素描合成和人脸素描识别的研究。
18.CUHK Image Cropping Dataset：该数据集提出了一种自动图像裁剪的方法。
19.CUHK-PEDES：一个大型的人形描述数据集，其中包含来自各种来源的人形图像详细信息的语言标注。
20.Expression in-the-Wild(ExpW) Dataset：包含91793个手动标记了表达式的面部。
21.General 100 Dataset：包含100个bmp格式的图像(无压缩)。
22.LPW：收集于三个不同的拥挤场景中。
23.MIT Trajectory Dataset(Single Camera)：用于研究以对象轨迹为特征的单个摄像机视图中的活动分析。
24.Multi-Task Facial Landmark(MTFL) Dataset：用于训练人脸界标检测的多任务深度模型。
25.Pedestrian Color Naming Dataset：包含14213 张图像，每张图像均用每个像素的颜色标签进行了手工标记。
26.Social Relation Dataset：根据凯斯勒(Kiesler)提出的人际关系圈来定义社会关系特征，其中人际关系被分为16个部分。
27.The Comprehensive Cars(CompCars) dataset：包含来自两种方案的数据，包括来自网络和监控的图像。
28.Visual Discriminative Question Generation(VDQG) Dataset：包含从Visual Genome收集的11202个模糊图像对。
29.WWW Crowd Dataset：是具有人群属性标注的最大人群数据集。
30.OmniSource：是一个以Kinetics-400类名称作为查询的多元化Web数据集。
31.ForgeryNet Dataset：是一个大型面部伪造数据集，它在四个任务中对图像和视频级数据进行统一的标注。

计算机视觉发展

1、20世纪50年代，主题是二维图像的分析和识别

1959年，神经生理学家David Hubel和Torsten Wiesel通过猫的视觉实验，首次发现了视觉初级皮层神经元对于移动边缘刺激敏感，发现了视功能柱结构，为视觉神经研究奠定了基础——促成了计算机视觉技术40年后的突破性发展，奠定了深度学习之后的核心准则。

1959年，Russell和他的同学研制了一台可以把图片转化为被二进制机器所理解的灰度值的仪器——这是第一台数字图像扫描仪，处理数字图像开始成为可能。

这一时期，研究的主要对象如光学字符识别、工件表面、显微图片和航空图片的分析和解释等。

2、20世纪60年代，开创了三维视觉理解为目的的研究

1965年， Lawrence Roberts《三维固体的机器感知》描述了从二维图片中推导三维信息的过程。——现代计算机视觉的前导之一，开创了理解三维场景为目的的计算机视觉研究。他对积木世界的创造性研究给人们带来极大的启发，之后人们开始对积木世界进行深入的研究，从边缘的检测、角点特征的提取，到线条、平面、曲线等几何要素分析，到图像明暗、纹理、运动以及成像几何等，并建立了各种数据结构和推理规则。

在这里插入图片描述

1966， MITAI实验室的Seymour Papert教授决定启动夏季视觉项目，并在几个月内解决机器视觉问题。Seymour和Gerald Sussman协调学生将设计一个可以自动执行背景/前景分割，并从真实世界的图像中提取非重叠物体的平台。——虽然未成功，但是计算机视觉作为一个科学领域的正式诞生的标志。

1969年秋天，贝尔实验室的两位科学家Willard S. Boyle和George E. Smith正忙于电荷耦合器件（CCD）的研发。它是一种将光子转化为电脉冲的器件，很快成为了高质量数字图像采集任务的新宠，逐渐应用于工业相机传感器，标志着计算机视觉走上应用舞台，投入到工业机器视觉中。【1】

3、20世纪70年代，出现课程和明确理论体系

70年代中期，麻省理工学院（MIT）人工智能（AI）实验室：CSAIL正式开设计算机视觉课程。

1977年David Marr在MIT的AI实验室提出了，计算机视觉理论（Computational Vision），这是与 Lawrence Roberts当初引领的积木世界分析方法截然不同的理论。计算机视觉理论成为80年代计算机视觉重要理论框架，使计算机视觉有了明确的体系，促进了计算机视觉的发展。

4、20世纪80年代，独立学科形成，理论从实验室走向应用

1980年，日本计算机科学家Kunihiko Fukushima在Hubel和Wiesel的研究启发下，建立了一个自组织的简单和复杂细胞的人工网络——Neocognitron，包括几个卷积层（通常是矩形的），他的感受野具有权重向量（称为滤波器）。这些滤波器的功能是在输入值的二维数组（例如图像像素）上滑动，并在执行某些计算后，产生激活事件（2维数组），这些事件将用作网络后续层的输入。Fukushima的Neocognitron可以说是第一个神经网络【2】，是现代 CNN 网络中卷积层+池化层的最初范例及灵感来源。

1982年，David Marr发表了有影响的论文-“愿景：对人类表现和视觉信息处理的计算研究”。基于Hubel和Wiesel的想法视觉处理不是从整体对象开始, David介绍了一个视觉框架，其中检测边缘，曲线，角落等的低级算法被用作对视觉数据进行高级理解的铺垫。同年《视觉》（Marr, 1982）一书的问世，标志着计算机视觉成为了一门独立学科。

1982年日本COGEX公司于生产的视觉系统DataMan，是世界第一套工业光学字符识别（OCR）系统。

1989年，法国的Yann LeCun将一种后向传播风格学习算法应用于Fukushima的卷积神经网络结构。在完成该项目几年后，LeCun发布了LeNet-5–这是第一个引入今天仍在CNN中使用的一些基本成分的现代网络。现在卷积神经网络已经是图像、语音和手写识别系统中的重要组成部分。

5、20世纪90年代，特征对象识别开始成为重点

1997年，伯克利教授Jitendra Malik（以及他的学生Jianbo Shi）发表了一篇论文，描述了他试图解决感性分组的问题。研究人员试图让机器使用图论算法将图像分割成合理的部分（自动确定图像上的哪些像素属于一起，并将物体与周围环境区分开来）

1999年， David Lowe 发表《基于局部尺度不变特征（SIFT特征）的物体识别》，标志着研究人员开始停止通过创建三维模型重建对象，而转向基于特征的对象识别。

1999年，Nvidia公司在推销Geforce 256芯片时，提出了GPU概念。GPU是专门为了执行复杂的数学和集合计算而设计的数据处理芯片。伴随着GPU发展应用，游戏行业、图形设计行业、视频行业发展也随之加速，出现了越来越多高画质游戏、高清图像和视频。

6、21世纪初，图像特征工程,出现真正拥有标注的高质量数据集

2001年，Paul Viola 和Michael Jones推出了第一个实时工作的人脸检测框架。虽然不是基于深度学习，但算法仍然具有深刻的学习风格，因为在处理图像时，通过一些特征可以帮助定位面部。该功能依赖于Viola / Jones算法，五年后，Fujitsu 发布了一款具有实时人脸检测功能的相机。

2005年，由Dalal & Triggs提出来方向梯度直方图，HOG（Histogramof Oriented Gradients）应用到行人检测上。是目前计算机视觉、模式识别领域很常用的一种描述图像局部纹理的特征方法。

2006年，Lazebnik, Schmid & Ponce提出一种利用空间金字塔即 SPM （Spatial Pyramid Matching）进行图像匹配、识别、分类的算法，是在不同分辨率上统计图像特征点分布，从而获取图像的局部信息。

2006年，Pascal VOC项目启动。它提供了用于对象分类的标准化数据集以及用于访问所述数据集和注释的一组工具。创始人在2006年至2012年期间举办了年度竞赛，该竞赛允许评估不同对象类识别方法的表现。检测效果不断提高。

2006年左右，Geoffrey Hilton和他的学生发明了用GPU来优化深度神经网络的工程方法，并发表在《Science》和相关期刊上发表了论文，首次提出了“深度信念网络”的概念。他给多层神经网络相关的学习方法赋予了一个新名词–“深度学习”。随后深度学习的研究大放异彩，广泛应用在了图像处理和语音识别领域【3】，他的学生后来赢得了2012年ImageNet大赛，并使CNN家喻户晓。

2009年，由Felzenszwalb教授在提出基于HOG的deformable parts model(DPM)，可变形零件模型开发，它是深度学习之前最好的最成功的objectdetection & recognition算法。它最成功的应用就是检测行人，目前DPM已成为众多分类、分割、姿态估计等算法的核心部分，Felzenszwalb本人也因此被VOC授予"终身成就奖"。

7、2010年-至今深度学习在视觉中的流行，在应用上百花齐放

2009年，李飞飞教授等在CVPR2009上发表了一篇名为《ImageNet: A Large-Scale Hierarchical Image Database》的论文，发布了ImageNet数据集，这是为了检测计算机视觉能否识别自然万物，回归机器学习，克服过拟合问题，经过三年多在筹划组建完成的一个大的数据集。从10年-17年，基于ImageNet数据集共进行了7届ImageNet挑战赛，李飞飞说"ImageNet改变了AI领域人们对数据集的认识，人们真正开始意识到它在研究中的地位，就像算法一样重要"。ImageNet是计算机视觉发展的重要推动者，和深度学习热潮的关键推动者【4】，将目标检测算法推向了新的高度。

在这里插入图片描述

2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”，也即现在众所周知的 AlexNet，赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。论文“ImageNet Classification with Deep Convolutional Networks”，迄今被引用约 7000 次，被业内普遍视为行业最重要的论文之一，真正展示了 CNN 的优点。机器识别的错误率从25%左右。降低了百分之16%左右，跟人类相比差别不大。是自那时起，CNN 才成了家喻户晓的名字。

2014年，蒙特利尔大学提出生成对抗网络（GAN）：拥有两个相互竞争的神经网络可以使机器学习得更快。一个网络尝试模仿真实数据生成假的数据，而另一个网络则试图将假数据区分出来。随着时间的推移，两个网络都会得到训练，生成对抗网络（GAN）被认为是计算机视觉领域的重大突破。

2017-2018 年深度学习框架的开发发展到了成熟期。PyTorch 和 TensorFlow 已成为首选框架，它们都提供了针对多项任务（包括图像分类）的大量预训练模型。

近年来，国内外巨头纷纷布局计算机视觉领域，开设计算机视觉研究实验室。以计算机视觉新系统和技术赋能原有的业务，开拓战场。

如Facebook的AI Research（FAIR）在视觉方面2016年声称其DeepFace人脸识别算法有着97.35%的识别准确率，几乎与人类不分上下。2017，Lin, Tsung-Yi等提出特征金字塔网络，可以从深层特征图中捕获到更强的语义信息。同时提出Mask R-CNN，用于图像的实例分割任务，它使用简单、基础的网络设计，不需要多么复杂的训练优化过程及参数设置，就能够实现当前最佳的实例分割效果，并有很高的运行效率。【5】

2016，亚马逊收购了一支欧洲顶级计算机视觉团队，为Prime Air无人机加上识别障碍和着陆区域的能力。开发无人机送货。2017年亚马逊网络服务（AWS）宣布对其识别服务进行了一系列更新，为云客户提供基于机器学习的计算机视觉功能。客户将能够在数百万张面孔的集合上进行实时人脸搜索。例如，Rekognition可用于验证一个人的图像与现有数据库中的另一个图像相匹配，数据库高达数千万个图像，具有亚秒级延迟。【6】

2018年末，英伟达发布的视频到视频生成（Video-to-Video synthesis），它通过精心设计的发生器、鉴别器网络以及时空对抗物镜，合成高分辨率、照片级真实、时间一致的视频，实现了让AI更具物理意识，更强大，并能够推广到新的和看不见的更多场景。【7】

2019， BigGAN，同样是一个GAN，只不过更强大，是拥有了更聪明的课程学习技巧的GAN，由它训练生成的图像连它自己都分辨不出真假，因为除非拿显微镜看，否则将无法判断该图像是否有任何问题，因而，它更被誉为史上最强的图像生成器。2020年5月末，Facebook发布新购物AI，通用计算机视觉系统GrokNet让“一切皆可购买”。

自从20世纪中期开始，计算机视觉不断发展，研究经历了从二维图像到三维到视频到真实空间的探知，操作方法从构建三维向特征识别转变，算法从浅层神经网络到深度学习，数据的重要性逐渐被认知，伴随着计算机从理论到应用的速度加快，高质量的各种视觉数据不断沉淀，相信无论在社会经济农业还是工业领域，还是视频直播、游戏、电商不断发展，一定还会有更多好玩炫酷的计算机视觉应用出现在我们身边。