超详细斯坦福CS231n课程笔记(第一课)

课程介绍

1. 概述

计算机视觉:顾名思义,就是针对视觉数据的研究

在这里插入图片描述

背景:YouTube每秒有5小时的视频被上传,需要正确分类。

2. 历史

生物视觉:5亿4千年前:动物进化出了眼睛

机器视觉:

  • 17世纪文艺复兴时期:小孔成像原理,最初的相机出现

  • 50~60年代,Hubel和Wiesel研究猫的视觉系统

  • David Marr (麻省理工学院视觉专家)70年代撰写了一本非常有影响力的书

    • 如何理解视觉的
    • 我们应该如何处理计算机视觉开发
    • 如何可以使计算机识别视觉世界的算法
  • 80年代David Lowe ,思考如何重建或者识别由简单的物体结构组成的视觉空间

  • 开始尝试识别剃须刀,通过线和边缘进行构建,其中大部分都是直线以及直线之间的组合

在这里插入图片描述

从60年代到80年代,计算机视觉的任务是什么?要解决物体识别的问题非常难

这时,一个重要的问题出现了,如果目标识别太难了,那么我们首先要做的是目标分割

这个任务就是把一张图片中的像素点归类到有意义的区域

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5uSn4Gh9-1592928575425)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623223040367.png)]

这项工作叫做图像分割,是由Jitendra Malik和他的学生Jianbo Shi完成的,他们用一个图算法对图像进行分割

还有一个另外的问题,也就是面部检测

使用AdaBoost 算法进行实时面部检测,由Paul Viola和Michael Jones完成,这是在计算机芯片还是非常非常慢的2001年完成的

在他们发表论文后的第5年,富士推出第一个能够在数码相机中实现实时面部检测的数码相机。所以这是从基础科学研究到实际应用的一个快速转化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gyuq7G9H-1592928575426)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623223740122.png)]

  • 90年代末~2000年的前10年:基于特征的目标识别,由David Lowe完成,叫做SIFT特征,思路就是去匹配整个目标

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ujmXwBKJ-1592928575426)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623224202020.png)]

可以得到一些启发:通过观察目标的某些部分、某些特征,它们往往能够在变化中具有表现性和不变性

所以目标识别的首要任务是在目标上确认这些关键的特征

3. 数据集

3.1 PASCAL Visual Object Challenge

这个数据集有20个类别,火车、飞机、人等等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-trz4rWiH-1592928575427)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623225244711.png)]

3.2 IMAGE-NET

汇集所有能找到的图片,包含世界万物,组建一个尽可能大的数据集

由将近1500万甚至4000多万的图片,分成22000类的物体或场景,将目标检测算法提升了一个高度
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JDODefGr-1592928966039)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623230059677.png)]
2012年错误率下降了接近10%,那一年的获奖算法是一种卷积神经网络模型

4. 初识卷积神经

卷积模型:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1Ny0YzQE-1592928575428)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623233206737.png)]

但是大家要了解的是,卷积神经网络并不是在2012年发明的,而是早在1998年,就已经有人提出了卷积神经网络模型,进行数字识别,用于识别手写支票以及邮局识别地址
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUw9TAG1-1592928575429)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623233610423.png)]

1998年卷积神经网络为什么没有火了呢?

  • 计算能力,由于摩尔定理,计算机的速度每年提升
  • 现在拥有了GPU这样的图像处理单元,具有超高的并行计算能力
  • 数据,当时没有大量的标签数据

5. 计算机视觉的未来

5.1 视觉基因组

在现实世界中捕捉这些错综复杂的事情,而不仅仅是框定出物体,我们应该描述出图像,不仅包括对象的身份,还要表示出对象之间的关系、属性以及场景中发生的动作等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OaCeMawT-1592928575429)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623235627566.png)]

5.2 描述图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wN7RI40L-1592928575430)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200624000002923.png)]

5.3 理解图片更深的含义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OTWF2wEx-1592928575431)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200624000159120.png)]

我们现在的计算机视觉算法,仍然有很长的路要走,如果要实现这样真实深刻的图像理解,我认为尽管在这个领域取得了巨大进步,但我们还有很长的一段路要走,对于我来说作为研究人员,我很兴奋,因为我认为,我们有着很多令人兴奋、酷炫的问题,去解决、去前进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值