视觉研究领域历史回顾与介绍

最新推荐文章于 2024-09-20 16:04:01 发布

哈温最可爱

最新推荐文章于 2024-09-20 16:04:01 发布

阅读量437

点赞数

文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_45008831/article/details/108769008

版权

本文探讨了计算机视觉的重要性，特别是在互联网信息爆炸的时代。卷积神经网络在处理视觉信息中的作用被强调，同时提到了视觉信息的处理难度，将其比喻为互联网的“暗物质”。文章通过生物学上的进化爆炸理论和文艺复兴时期的视觉技术突破，阐述了视觉处理在生物和人类历史上的关键角色。实验揭示了大脑基础视觉皮质层对简单形状的敏感性，为深度学习神经网络的设计提供了启示。

摘要由CSDN通过智能技术生成

计算机视觉这门课程基于一种专用的模型架构—神经网络，说的更详细一点，就是卷积神经网络（Convolutional Neural Network）/深度学习网络。
计算机视觉是人工智能领域中发展最为迅猛的一个分支，思科做过评估，在2016年，我们已经到了一个时代，互联网上超过85%的信息都会是像素形式，也就是我们所说的“多媒体”，所以我们实际上已经进入了一个视觉、图片和视频时代。

信息爆炸的原因，部分是因为我们有互联网作为信息的载体，另一部分的原因是传感器，我们的传感器甚至比人还多。我们每个人都拿着一部智能手机，大街上跑的车也有行车记录仪，所以传感器确实引起了视觉信息的大爆发。

但视觉信息（或者叫像素信息）是最难被利用的信息，我们将其称为互联网中的暗物质。什么是暗物质？银河系中据说有85%的质量属于暗物质和暗能量，它们都非常难被检测或观察到，我们可以通过数学模型来推断这些暗物质存在。互联网上，这些像素我们不知道它们的内容，我们很难获取它们描述的内容。举一个非常简单的例子，现在Youtube的服务器上，每60秒就会有150小时以上的视频上传，这只是每60秒而已。想想看，如此巨大的数据量，我们靠眼睛根本无法完整浏览这些数据，给如此大量的数据进行标记、分类，所以Youtube团队或者谷歌都在设法为这些数据进行标记、分类、索引等工作，用来做广告，或者是帮助我们检索，操作这些数据。不过没有成功，没有人能手工的处理海量数据，完成这项工作的唯一希望就是计算机视觉技术。能够对照片进行标签、分类，处理视频中的每一帧，自动截取出篮球比赛中，比如说科比的一次精彩进球，这就是我们现在面对着的问题—非常大量的数据，以及这些“暗物质”的挑战。

计算机视觉是一个与很多领域密切关联的学科，B站李飞飞231n 课程针对的是更专的领域，它的模型和应用范围都更具针对性（对比231a课程），模型方面，我们只讨论神经网络；应用范围方面，我们基本只针对视觉识别。

五亿四千万年前，地球是一锅非常平静的水，有非常简单的生物圈，而所谓的动物就只是漂在水里，它们进食的方式就是张着嘴漂着，等着嘴边的事物撞进来，然后张开嘴吞下去就好了，也没有很多种类的生物。但是奇怪的事情发生了，从化石研究来看，物种数量突然地就爆发了，生物学家称之为speciation（进化爆炸/寒武纪生命大爆发）。突然间由于某种原因，生物开始变得多样化，它们展现出非常复杂的形态，出现了肉食动物，猎食者们进化出各种各样的工具来帮助自己生存。到底是什么力量触发了这一切？这是一桩悬案，可能是小行星撞地球、环境变迁之类的原因。一个有说服力的理论，是Andrew Parker（澳大利亚现代地质学家）研究了很多化石后提出的：这一切都源于眼睛的出现。第一个先驱进化出了非常简陋的眼睛，也就和针孔相机差不多，只能捕捉到光线，感受到一点环境信息。突然之间，生活不再那么平淡，因为有了眼睛之后，第一件事就是可以去捕食食物，你现在知道食物在哪里了，你不再是水里的瞎子了。而当你能去抓食物，你猜怎么着？那些食物最好赶紧长出眼睛来，从你身边跑掉，否则它们就挂了，所以第一只有眼睛的动物，它们简直就像进了谷歌公司的自助餐厅，它拥有最美好的时光，什么都随便它吃。因为这些眼睛的出现，生物展开了“装备竞赛”，每种动物都得学着去弄出点什么，挣扎求存。在这种突然的物种爆发中，，出现了捕食者和被捕食者。所以，这就是五亿四千万年前，视觉出现时的情景，视力不仅仅是“出现”而已，实际上它是进化大爆发的主要驱动力。

视觉领域另一项非常重要的突破，在工程技术方面，发生在文艺复兴时期，由达芬奇这个传奇人物发明。在文艺复兴之前，全球各地的文明，从亚洲到欧洲、美洲、非洲，我们曾经见识过照相机的模型，亚里士多德曾经用树叶制作相机的过程，中国先贤墨子曾经用带小孔的盒子制作过相机。但如果你去了解第一份描述现代照相机原理的资料，你会找到“照相暗盒”，是由达芬奇描述的，那么这就是现代视觉工程技术的开端了，我们开始想要“复制这个世界”，我们希望能为看到的世界留下一份视觉拷贝，不过这并没有涉及到试图去理解看到的信息，这时候我们只是在复制我们看到的信息。

生物的大脑如何处理视觉信息的？（并非工程技术领域而是科学领域知识~）我们现在知道了，我们用了5.4亿年进化出了如今非常神奇的视觉系统，那么这5.4亿年到底进化了什么，从三叶虫的眼睛到人类的眼睛，到底经历了什么样的变迁，我们到底用着什么样的架构？哈佛进行了一项重要的研究，他们找来一只清醒的但是被麻醉了的猫，并制作一根电极探针，打开了猫的头骨，将这根针插入猫的大脑内的基础视觉皮质层中，这部分神经元处理着和视觉相关的大量工作，但是此前我们并不知道基础视觉皮质层到底做着什么样的工作，我们只知道它负责在眼睛看到东西后，整个视觉处理流程的前期部分，有难以计数的神经元参与这个流程，我们应该搞清楚它到底是怎样运作的。所以他们把电极插入了猫的基础视觉皮质层中，实验发现了一个有趣的现象，基础视觉皮质层—视觉处理流程第一站（或者第二，这取决于你要不要把眼睛算进去）是在后脑勺的位置上，而不是紧挨着眼睛。这个非常有意思，因为你的嗅觉处理部分是紧挨着鼻子的，听觉处理部分是紧挨着耳朵的，然而基础视觉皮质层却在离眼睛最远的位置。另一个有趣的实验结果是，并不是只有基础视觉皮质层这一块参与了视觉处理流程，差不多有50%的大脑都参与着视觉处理过程，视觉是大脑中感知任务最重、最艰难的一项工作，不是说别的感官没用，只是说自然进化用了如此长的时间，进化出我们的感知系统，视觉却在其中占据了如此多的资源。Hubei和Wiesel踌躇满志，想要搞清楚基础视觉皮质层到底在做什么，因为这是我们深度学习神经网络的第一步知识。他们先把猫放到屋子里，然后记录神经元的活动（观察猫看东西时，神经元是否被激发），比如说他们给猫看鱼的图片，那么，神经元会兴奋起来（被激活），发送脉冲吗？他们给猫看了鱼的图片，耗子的图片，花的图片，结果全都没用，猫的基础视觉区一片沉寂，没有任何脉冲。好的消息是，那时候没有计算机，所以他们想给猫看图片的话，得用幻灯片投影才行，所以他们放一张鱼的幻灯片，等着神经元的脉冲，如果没有，就换下一张幻灯片。结果他们发现，每次换幻灯片时，神经元被激活了。这表明了更换幻灯片的动作生成了一个“边缘”，可能是矩形或圆形之类的，这个移动的边缘激活了这些神经元，科学家立刻捕捉了这一信息，经过深入研究，最终发现，基础视觉区的神经元是按一列一列组织起来的，每一列神经元只“喜欢”某一特定形状/某种简单的线条组合，而不是鱼/老鼠。

总的来说，有很多基础视觉区的神经元，我们不知道它们喜欢什么。Hubei和Wiesel发现，视觉的前期，并不是对整体的鱼/老鼠进行处理，视觉处理流程的第一步，是对简单的形状结构处理—边缘。这对认知科学、神经科学、工程模型都产生了极为深远的影响。如果以后我们实现一些深度神经网络，我们会看到简单的边缘结构出现在我们的模型中。