计算机视觉历史回顾（李飞飞cs231n听课笔记之第一篇）

最新推荐文章于 2021-05-26 16:13:33 发布

0x5A52

最新推荐文章于 2021-05-26 16:13:33 发布

阅读量890

点赞数 2

分类专栏：人工智能文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/rzhengbj163/article/details/94407694

版权

人工智能专栏收录该内容

11 篇文章 6 订阅

订阅专栏

1、为什么要从计算机视觉入手研究人工智能

现实中的需要：目前互联网上大量存在的未能有效处理的图像、视频资源，以Youtube为例，其服务器每60s会接收到150小时以上的视频资源，这些资源难以被实时解析，因此其中包含的信息也无法直接检索分析和利用，这些数据由此被称为“互联网中的暗物质”。要解决这个问题就需要借助计算机视觉技术进行自动分析。

从视觉信息的性质来看，以一张手机拍摄的1000万像素照片为例，每个像素点具有256^3种可能的取值，而1000万像素就意味着信息排列组合有256^3^1000万种可能，这比宇宙中的原子还多，所以靠一般的方法是很难处理这种类型数据的，需要采用一定的理论体系和技术手段来处理这类数据，因此计算机视觉是一个非常有挑战性和实际意义的研究领域。

2、与计算机视觉研究相关的历史

视觉感知能力在生物上的出现：5亿4千万年之前，地球上的生物还非常单调，但是此后出现了所谓的寒武纪生物大爆炸，学者古尔德在《自达尔文以来》一书中探索寒武纪生命大爆发的原因之一就是由于微小的变异，导致了最初的“收割者”出现【1】。在英国自然历史博物馆首席研究员andrewparker看来，早期这些进化后的生物很有可能就是凭借视觉感知能力成为了生物链中的佼佼者，从而推动了整个食物链的演化。

照相机的发明：达·芬奇绘制了对应Camera Obscura的草稿，即所谓的照相暗盒。这是第一份描述现代照相机原理的资料，自此之后出现了电影技术，相应的有关工程技术也蓬勃发展起来。

生物学上的进展：尽管已经知道视觉对于生物的重要性，但在生物的大脑中视觉信息具体是如何被处理的，仍然需要进一步探索，Hubel和Wiesel两位学者在哈佛进行的猫视觉神经相关研究【2】表明生物的视觉系统是从简单到复杂逐步整合信息的，基础视觉皮质层主要负责处理类似于边缘、阵列这样的基础图案。其中一个有趣的事实是，负责处理这些信息的脑组织并不与眼睛紧接，而是处于脑部靠后即后脑勺的位置，这与嗅觉、听觉器官与对应脑区的排列不同，另外对于视觉信息的处理，有将近50%的脑组织都会参与其中。可见视觉信息的处理绝不简单。

计算机相关理论的建立：Lary Roberts在1963年所写的博士论文Block World着力基于边缘信息去识别场景中不同的block，即通过算法能够在不同角度和光照条件下基于形状判断出照片中的块状物为同一个物体。Lary Roberts并没有继续他的计算机视觉研究，他后来成为了DARPA的一员，为互联网的雏形贡献了自己的力量。20世纪60年代早期，在Marvin Minsky的领导下MIT的人工智能实验室成立，同一时期John McCarthy在斯坦福也建立人工智能实验室，而在1966年夏天，MIT人工智能实验室的教授试图解决计算机视觉领域的理论问题，虽然实际中结果没有达到预期，但从此计算机视觉领域开始蓬勃发展，至今关于计算机视觉的顶级会议每年都有两千名以上的学者参与。

在理论建立方面不能不提的另一个人是David Marr，他是《Vision》一书的作者，他从神经领域背景的研究启发出发，Marr发展了从Hubel和Wiesel处获得的启示，Marr认为视觉处理过程是从输入图像input image，到边缘图像edge image，到2.5D框架2.5D sketch 到最后的三维模型3D modal。这一思考是存在合理性的，如果人脑不能建立一种三维的模型，那么将无法对诸如遮挡，碰撞等等这些问题进行推理。进化使得大多数哺乳动物都具备两只眼睛，这就使得他们可以产生深度感知，这是一个抽象的高度概括的指导性框架，但并没有指出怎样具体完成这些任务。

在这个阶段，按照Marr提出的框架，沿着三维模型的思路产生了几个重要的成果，一个是Brooks和Binford在1979年提出的Generalized Cylinder其主旨是世界上的物体都是由圆柱体Cylinders和块Blocks组成的，另一个非常有影响力的模型是Pictorial Structure，该模型中物体各个部分不是由刚体连接的，而是由弹簧Spring相连，图中以人脸为例，其各个相连的部分以弹簧模型处理。

David Lowie 在1987年提出了一个用于从黑白照片中提取剃须刀的方法

受制于80年代的计算机硬件处理能力，上述成果看起来不够Fashion，而且看起来实际意义也不大。但是进入90年代，随着计算机处理能力的提升，大部分计算机也具备了彩色显示器，能够处理多媒体文件。计算机视觉也进入了处理彩色图像的时代。这一时期比较有影响力的算法有Shi&Malik于1997年提出的Normalized Cut方法【3】用于对图像进行分割，需要指出的是分割这一问题到现在也没有完全解决，已经成为计算机视觉领域的一个子方向。Viola & Jones在2001年提出的Face Detection方法【4】是另一个激动人心的进展，该方法不久之后就用在了富士相机上，这是计算机视觉早期比较成功的应用之一。它的特征学习过程有很强的深度学习特质，而且非常重要的是这个算法可以在当时的主流电脑配置上实时运行。而David Lowie也在这一时期提出了SIFT特征检测子【5】，Lazebnik,Schmid 和 Ponce在2006年提出了Spatial Pyramid Matching【6】，Dalal 和Triggs在2005年提出了Histogram of Gradients (HoG)【7】，Felzenswalb, McAllester和Ramanan在2009年提出了Deformable Part Model【8】。人们也逐渐认识到已经可以利用计算机视觉去做一些更实际的事，PASCAL视觉物体识别挑战赛【9】于2006年开始举行，该比赛旨在对生活中常见的20种物体进行分类，与此同时李飞飞等研究者认为生活中的远不止20种物体，因此提出了包含22k个分类，1400万张图片的IMAGENET【10】，每年举行相应的比赛，其中一项的任务就是对1000种类的接近150万张图片进行识别。到2014年1000个物体分类的错误率已经降到了7%。后期这些成功的方法基本都是用神经网络和深度学习实现的。

3、本课程重点与相关内容

本课程主要聚焦于图像识别，其应用十分广泛，例如识别旅游景点地标，识别事物，识别商品，根据识别内容对图片进行分类等等。与此技术相关的识别研究方向有：物体检测、行为识别、图像描述等，这些方向与图像识别略有不同，例如物体检测的目标是要将所识别的物体在原图中标记出来。

在各种用于图像识别的方法中，卷积神经网络（CNN）是目前最为成功，具有压倒性优势的一类方法，它属于深度学习分支，自从2012年Alex krizhevsky和其导师Geoff Hinton提出的7层卷积神经网络【11】获得Imagenet冠军之后，几乎每届的冠军都是深度学习模型，如2014年的GoogleNet【12】，VGG【13】，2015年的冠军由微软亚洲研究院获得，其提出的模型称为残差网（Resnet），它具有152层【14】。

卷积神经网络并不是在一夜之间发明的，它是在研究神经网络过程中，多人智慧结晶的一个成果，其中最早作出贡献的是日本学者Kunihiko Fukushima，他建立了一个其称为Neocognitron的模型，Yann LeCun在90年代发表的用于手写数字识别的神经网络【15】其实与2012年Alex提出的模型是十分相似的，只不过其更大，更复杂，而且学习策略上也有一些调整，使用了GPU加速等等，这些如今已经成为了深度学习中采用的标准手段。

尽管我们取得了如上瞩目的成就，但是距离实际中的视觉问题还有很多长路要走，例如对整个图片进行密集标记，感知分组，将3D模型和识别结果结合，这类问题在机器人领域经常出现，此外诸如对运动、对场景的理解等等

对于计算机视觉未来前景的展望应该更多与语义结合，生物的视觉系统极为强大，注视一张图片500ms就可以写出一篇短文用来描述其中的物体和发生的事件。这样的视觉技术才能称得上智能，这可以被认为是视觉的终极目的，这样的技术才能更好的服务于人们的生活，而不是如媒体和新闻上那些耸人听闻的报道所言。

完成本课程需要熟练的C/C++编程技能，熟悉Python编程技能，在数学上需要先修微积分和线性代数两门课程，掌握其中的知识点。

注：

【1】收割者的收割，就是收割庄稼的收割，可以认为是能够捕食当前食物链中数量较多物种的上游生物。“收割原则”是个有趣的生态学理论，如果一个地方出现了收割者，那这个地方的物种数量会不会迅速减少？实际情况并不是如此简单。当一个地方没有收割者的时候，这个地方一定是被少数几种物种占据的，因为没有天敌，生存环境也比较稳定，所以形态在很长时间里都没什么变化。而一旦出现收割者打破了这种平衡，就为其它那些数量不太多的物种腾出了生活空间，让它们有机会发展壮大，从而生物的多样性也得以丰富。这一原理已经过实验证实，在池塘中加入捕食性鱼类，能促进浮游生物的多样化。

【2】这里穿插了一个小故事，Hubel和Wiesel最开始将电极插入猫的脑部，为其放映幻灯片的时候，采用的是复杂的图案，例如老鼠、鱼等，但是这些图案并没有引发预期的响应，反而是在切换幻灯片的时候观察到了响应，经过分析他们发现可能是切换幻灯片时候的幻灯片与幻灯片之间的边缘触发了响应。可见科学发现需要持久的耐心、细致入微的观察以及一些运气。

【3】Shi, Jianbo, and Jitendra Malik. "Normalized cuts and image segmentation." Pattern Analysis and Machine Intelligence, IEEE Transactions on 22.8 (2000): 888-905.

【4】Viola, Paul, and Michael Jones. "Rapid object detection using a boosted cascade of simple features." Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE Computer Society Conference on. Vol. 1. IEEE, 2001.

【5】Lowe, David G. "Distinctive image features from scale-invariant key points." International Journal of Computer Vision 60.2 (2004): 91-110.

【6】Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories." Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on. Vol. 2. IEEE, 2006.

【7】Dalal, Navneet, and Bill Triggs. "Histograms of oriented gradients for human detection." Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.

【8】Felzenszwalb, Pedro, David McAllester, and Deva Ramanan. "A discriminatively trained, multiscale, deformable part model." Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008

【9】Everingham, Mark, et al. "The pascal visual object classes (VOC) challenge." International Journal of Computer Vision 88.2 (2010): 303-338.

【10】Deng, Jia, et al. "Imagenet: A large-scale hierarchical image database." Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009

【11】Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012

【12】Szegedy, Christian, et al. "Going deeper with convolutions." arXiv preprint arXiv:1409.4842 (2014).

【13】Simonyan, Karen, and Andrew Zisserman. "Very deep convolutional networks for large-scale image recognition." arXiv preprint arXiv:1409.1556 (2014).

【14】He, K., Zhang, X., Ren, S. and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).

【15】LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.

0x5A52

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
计算机视觉历史回顾（李飞飞cs231n听课笔记之第一篇）

1、为什么要从计算机视觉入手研究人工智能现实中的需要：目前互联网上大量存在的未能有效处理的图像、视频资源，以Youtube为例，其服务器每60s会接收到150小时以上的视频资源，这些资源难以被实时解析，因此其中包含的信息也无法直接检索分析和利用，这些数据由此被称为“互联网中的暗物质”。要解决这个问题就需要借助计算机视觉技术进行自动分析。从视觉信息的性质来看，以一...
复制链接

扫一扫

专栏目录