超详细斯坦福CS231n课程笔记（第一课）

最新推荐文章于 2024-06-15 23:17:15 发布

授渔

最新推荐文章于 2024-06-15 23:17:15 发布

阅读量357

点赞数

分类专栏：计算机视觉文章标签：计算机视觉人工智能机器学习深度学习

本文链接：https://blog.csdn.net/ABC__xiaoming/article/details/106935231

版权

计算机视觉专栏收录该内容

7 篇文章 3 订阅

订阅专栏

课程介绍

1. 概述

计算机视觉：顾名思义，就是针对视觉数据的研究

在这里插入图片描述

背景：YouTube每秒有5小时的视频被上传，需要正确分类。

2. 历史

生物视觉：5亿4千年前：动物进化出了眼睛

机器视觉：

17世纪文艺复兴时期：小孔成像原理，最初的相机出现
50～60年代，Hubel和Wiesel研究猫的视觉系统
David Marr （麻省理工学院视觉专家）70年代撰写了一本非常有影响力的书
- 如何理解视觉的
- 我们应该如何处理计算机视觉开发
- 如何可以使计算机识别视觉世界的算法
80年代David Lowe ，思考如何重建或者识别由简单的物体结构组成的视觉空间

开始尝试识别剃须刀，通过线和边缘进行构建，其中大部分都是直线以及直线之间的组合

在这里插入图片描述

从60年代到80年代，计算机视觉的任务是什么？要解决物体识别的问题非常难

这时，一个重要的问题出现了，如果目标识别太难了，那么我们首先要做的是目标分割

这个任务就是把一张图片中的像素点归类到有意义的区域

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5uSn4Gh9-1592928575425)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623223040367.png)]

这项工作叫做图像分割，是由Jitendra Malik和他的学生Jianbo Shi完成的，他们用一个图算法对图像进行分割

还有一个另外的问题，也就是面部检测

使用AdaBoost 算法进行实时面部检测，由Paul Viola和Michael Jones完成，这是在计算机芯片还是非常非常慢的2001年完成的

在他们发表论文后的第5年，富士推出第一个能够在数码相机中实现实时面部检测的数码相机。所以这是从基础科学研究到实际应用的一个快速转化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gyuq7G9H-1592928575426)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623223740122.png)]

90年代末～2000年的前10年：基于特征的目标识别，由David Lowe完成，叫做SIFT特征，思路就是去匹配整个目标

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ujmXwBKJ-1592928575426)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623224202020.png)]

可以得到一些启发：通过观察目标的某些部分、某些特征，它们往往能够在变化中具有表现性和不变性

所以目标识别的首要任务是在目标上确认这些关键的特征

3. 数据集

3.1 PASCAL Visual Object Challenge

这个数据集有20个类别，火车、飞机、人等等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-trz4rWiH-1592928575427)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623225244711.png)]

3.2 IMAGE-NET

汇集所有能找到的图片，包含世界万物，组建一个尽可能大的数据集

由将近1500万甚至4000多万的图片，分成22000类的物体或场景，将目标检测算法提升了一个高度
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JDODefGr-1592928966039)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623230059677.png)]
2012年错误率下降了接近10%，那一年的获奖算法是一种卷积神经网络模型

4. 初识卷积神经

卷积模型：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1Ny0YzQE-1592928575428)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623233206737.png)]

但是大家要了解的是，卷积神经网络并不是在2012年发明的，而是早在1998年，就已经有人提出了卷积神经网络模型，进行数字识别，用于识别手写支票以及邮局识别地址
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUw9TAG1-1592928575429)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623233610423.png)]

1998年卷积神经网络为什么没有火了呢？

计算能力，由于摩尔定理，计算机的速度每年提升
现在拥有了GPU这样的图像处理单元，具有超高的并行计算能力
数据，当时没有大量的标签数据

5. 计算机视觉的未来

5.1 视觉基因组

在现实世界中捕捉这些错综复杂的事情，而不仅仅是框定出物体，我们应该描述出图像，不仅包括对象的身份，还要表示出对象之间的关系、属性以及场景中发生的动作等

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OaCeMawT-1592928575429)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200623235627566.png)]

5.2 描述图片

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wN7RI40L-1592928575430)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200624000002923.png)]

5.3 理解图片更深的含义

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OTWF2wEx-1592928575431)(/Users/zhanghangming/Library/Application Support/typora-user-images/image-20200624000159120.png)]

我们现在的计算机视觉算法，仍然有很长的路要走，如果要实现这样真实深刻的图像理解，我认为尽管在这个领域取得了巨大进步，但我们还有很长的一段路要走，对于我来说作为研究人员，我很兴奋，因为我认为，我们有着很多令人兴奋、酷炫的问题，去解决、去前进。

授渔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
超详细斯坦福CS231n课程笔记（第一课）

课程介绍1. 概述计算机视觉：顾名思义，就是针对视觉数据的研究背景：YouTube每秒有5小时的视频被上传，需要正确分类。2. 历史生物视觉：5亿4千年前：动物进化出了眼睛机器视觉：17世纪文艺复兴时期：小孔成像原理，最初的相机出现50～60年代，Hubel和Wiesel研究猫的视觉系统David Marr （麻省理工学院视觉专家）70年代撰写了一本非常有影响力的书如何理解视觉的我们应该如何处理计算机视觉开发如何可以使计算机识别视觉世界的算法80年代David
复制链接

扫一扫

专栏目录