视觉研究领域历史回顾与介绍

计算机视觉这门课程基于一种专用的模型架构—神经网络,说的更详细一点,就是卷积神经网络(Convolutional Neural Network)/深度学习网络。
计算机视觉是人工智能领域中发展最为迅猛的一个分支,思科做过评估,在2016年,我们已经到了一个时代,互联网上超过85%的信息都会是像素形式,也就是我们所说的“多媒体”,所以我们实际上已经进入了一个视觉、图片和视频时代。

信息爆炸的原因,部分是因为我们有互联网作为信息的载体,另一部分的原因是传感器,我们的传感器甚至比人还多。我们每个人都拿着一部智能手机,大街上跑的车也有行车记录仪,所以传感器确实引起了视觉信息的大爆发。

但视觉信息(或者叫像素信息)是最难被利用的信息,我们将其称为互联网中的暗物质。什么是暗物质?银河系中据说有85%的质量属于暗物质和暗能量,它们都非常难被检测或观察到,我们可以通过数学模型来推断这些暗物质存在。互联网上,这些像素我们不知道它们的内容,我们很难获取它们描述的内容。举一个非常简单的例子,现在Youtube的服务器上,每60秒就会有150小时以上的视频上传,这只是每60秒而已。想想看,如此巨大的数据量,我们靠眼睛根本无法完整浏览这些数据,给如此大量的数据进行标记、分类,所以Youtube团队或者谷歌都在设法为这些数据进行标记、分类、索引等工作,用来做广告,或者是帮助我们检索,操作这些数据。不过没有成功,没有人能手工的处理海量数据,完成这项工作的唯一希望就是计算机视觉技术。能够对照片进行标签、分类,处理视频中的每一帧,自动截取出篮球比赛中,比如说科比的一次精彩进球,这就是我们现在面对着的问题—非常大量的数据,以及这些“暗物质”的挑战。

计算机视觉是一个与很多领域密切关联的学科,B站李飞飞231n 课程针对的是更专的领域,它的模型和应用范围都更具针对性(对比231a课程),模型方面,我们只讨论神经网络;应用范围方面,我们基本只针对视觉识别。

五亿四千万年前,地球是一锅非常平静的水,有非常简单的生物圈,而所谓的动物就只是漂在水里,它们进食的方式就是张着嘴漂着,等着嘴边的事物撞进来,然后张开嘴吞下去就好了,也没有很多种类的生物。但是奇怪的事情发生了,从化石研究来看,物种数量突然地就爆发了,生物学家称之为speciation(进化爆炸/寒武纪生命大爆发)。突然间由于某种原因,生物开始变得多样化,它们展现出非常复杂的形态,出现了肉食动物,猎食者们进化出各种各样的工具来帮助自己生存。到底是什么力量触发了这一切?这是一桩悬案,可能是小行星撞地球、环境变迁之类的原因。一个有说服力的理论,是Andrew Parker(澳大利亚现代地质学家)研究了很多化石后提出的:这一切都源于眼睛的出现。第一个先驱进化出了非常简陋的眼睛,也就和针孔相机差不多,只能捕捉到光线,感受到一点环境信息。突然之间,生活不再那么平淡,因为有了眼睛之后,第一件事就是可以去捕食食物,你现在知道食物在哪里了,你不再是水里的瞎子了。而当你能去抓食物,你猜怎么着?那些食物最好赶紧长出眼睛来,从你身边跑掉,否则它们就挂了,所以第一只有眼睛的动物,它们简直就像进了谷歌公司的自助餐厅,它拥有最美好的时光,什么都随便它吃。因为这些眼睛的出现,生物展开了“装备竞赛”,每种动物都得学着去弄出点什么,挣扎求存。在这种突然的物种爆发中,,出现了捕食者和被捕食者。所以,这就是五亿四千万年前,视觉出现时的情景,视力不仅仅是“出现”而已,实际上它是进化大爆发的主要驱动力

视觉领域另一项非常重要的突破,在工程技术方面,发生在文艺复兴时期,由达芬奇这个传奇人物发明。在文艺复兴之前,全球各地的文明,从亚洲到欧洲、美洲、非洲,我们曾经见识过照相机的模型,亚里士多德曾经用树叶制作相机的过程,中国先贤墨子曾经用带小孔的盒子制作过相机。但如果你去了解第一份描述现代照相机原理的资料,你会找到“照相暗盒”,是由达芬奇描述的,那么这就是现代视觉工程技术的开端了,我们开始想要“复制这个世界”,我们希望能为看到的世界留下一份视觉拷贝,不过这并没有涉及到试图去理解看到的信息,这时候我们只是在复制我们看到的信息。

生物的大脑如何处理视觉信息的?(并非工程技术领域而是科学领域知识~)我们现在知道了,我们用了5.4亿年进化出了如今非常神奇的视觉系统,那么这5.4亿年到底进化了什么,从三叶虫的眼睛到人类的眼睛,到底经历了什么样的变迁,我们到底用着什么样的架构?哈佛进行了一项重要的研究,他们找来一只清醒的但是被麻醉了的猫,并制作一根电极探针,打开了猫的头骨,将这根针插入猫的大脑内的基础视觉皮质层中,这部分神经元处理着和视觉相关的大量工作,但是此前我们并不知道基础视觉皮质层到底做着什么样的工作,我们只知道它负责在眼睛看到东西后,整个视觉处理流程的前期部分,有难以计数的神经元参与这个流程,我们应该搞清楚它到底是怎样运作的。所以他们把电极插入了猫的基础视觉皮质层中,实验发现了一个有趣的现象,基础视觉皮质层—视觉处理流程第一站(或者第二,这取决于你要不要把眼睛算进去)是在后脑勺的位置上,而不是紧挨着眼睛。这个非常有意思,因为你的嗅觉处理部分是紧挨着鼻子的,听觉处理部分是紧挨着耳朵的,然而基础视觉皮质层却在离眼睛最远的位置。另一个有趣的实验结果是,并不是只有基础视觉皮质层这一块参与了视觉处理流程,差不多有50%的大脑都参与着视觉处理过程,视觉是大脑中感知任务最重、最艰难的一项工作,不是说别的感官没用,只是说自然进化用了如此长的时间,进化出我们的感知系统,视觉却在其中占据了如此多的资源。Hubei和Wiesel踌躇满志,想要搞清楚基础视觉皮质层到底在做什么,因为这是我们深度学习神经网络的第一步知识。他们先把猫放到屋子里,然后记录神经元的活动(观察猫看东西时,神经元是否被激发),比如说他们给猫看鱼的图片,那么,神经元会兴奋起来(被激活),发送脉冲吗?他们给猫看了鱼的图片,耗子的图片,花的图片,结果全都没用,猫的基础视觉区一片沉寂,没有任何脉冲。好的消息是,那时候没有计算机,所以他们想给猫看图片的话,得用幻灯片投影才行,所以他们放一张鱼的幻灯片,等着神经元的脉冲,如果没有,就换下一张幻灯片。结果他们发现,每次换幻灯片时,神经元被激活了。这表明了更换幻灯片的动作生成了一个“边缘”,可能是矩形或圆形之类的,这个移动的边缘激活了这些神经元,科学家立刻捕捉了这一信息,经过深入研究,最终发现,基础视觉区的神经元是按一列一列组织起来的,每一列神经元只“喜欢”某一特定形状/某种简单的线条组合,而不是鱼/老鼠。

总的来说,有很多基础视觉区的神经元,我们不知道它们喜欢什么。Hubei和Wiesel发现,视觉的前期,并不是对整体的鱼/老鼠进行处理,视觉处理流程的第一步,是对简单的形状结构处理—边缘。这对认知科学、神经科学、工程模型都产生了极为深远的影响。如果以后我们实现一些深度神经网络,我们会看到简单的边缘结构出现在我们的模型中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值