【深度之眼斯坦福CS231n训练营第七期】计算机视觉发展历史以及概念

最新推荐文章于 2022-04-16 15:02:40 发布

不想秃头的小阿瑞

最新推荐文章于 2022-04-16 15:02:40 发布

阅读量384

点赞数

分类专栏：计算机视觉文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_43498884/article/details/103338570

版权

计算机视觉专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详述了计算机视觉的发展历程，从17世纪的暗箱到现代深度学习的突破，包括关键的人物、事件和算法，如SIFT、HoG和CNN。此外，介绍了图像分类、目标检测等核心任务以及ImageNet比赛的重要性。

摘要由CSDN通过智能技术生成

本博客为记录在深度之眼学习斯坦福CS231n课程的一些笔记，后续会继续补充…

第一讲：课程简介

计算机视觉概述
- 据思科，截止到2017年，互联网上80%的数据为视频
- YouTube：几乎每秒钟都有长达五小时的内容会被上传到YouTube

第二讲：视觉发展史

视觉的历史可以追溯到约5亿4千3百万年前
最早的照相机：17世纪文艺复兴时期的通过小孔成像的暗箱，与动物早期的眼睛相似
研究发现视觉处理始于视觉世界的简单结构
计算机视觉历史从20世纪60年代开始，Larry Roberts出版了一个Block World，被称为第一篇计算机视觉的博士论文，其中视觉世界被简化为简单的几何形状，目的是重建
1966年，MIT暑期项目，争取用暑假的时间解决计算机视觉中的问题，但50年过后才有大的进展
70年代，David Marr出版了一本书vision
80年代，David Lowe常识识别剃须刀，直线之间的组合
伯克利的Jitendra Malik和他的学生Jianbo Shi用一个图算法对图像进行分割
“SIFT” & Object Recognition, David Lowe, 1999：Distinctive Image Features from Scale-Invariant Keypoints
1999-2000年机器学习开始加速，svm、boosting，Paul Viola和Michael Jones使用AdaBoost算法实现了面部检测
Histogram of Gradients (HoG) Dalal & Triggs, 2005：Histograms of Oriented Gradients for Human Detection
2006年富士推出第一个能在内部检测人脸的相机Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006
Deformable Part Model Felzenswalb, McAllester, Ramanan, 2009
21世纪初才有标注的目标识别数据集：PASCAL VISUAL OBJECT CHALLENGE（PASCAL VOC）,20个类别，每个种类有成千上万个图片
为了防止机器学习过拟合，必须要增加样本量，所以出现了ImageNet的数据集，汇集所有能找到的图片，耗时三年才完成，22000类物体或场景
2009年开始，ImageNet团队组织国际比赛，这个数据集共140万目标，1000种目标类别，用来测试识别算法
- 2010：NEC-UIUC
- 2012：SuperVision（AlexNet）：ImageNet Classification with Deep ConvolutionalNeural Networks
- 2014：GoogLeNet VGG： Very Deep Convolutional Networks for Large-Scale Image Recognition
- 2015：MSRA
2012年用卷积神经网络的比赛团队获得了胜利，AlexNet ，这一年CNN展示了强大的威力也有了很大的进步

第三讲：课程后勤

图像的一些任务：图像分类，目标检测，图像描述
Imagenet比赛中的一些代表模型
Cnn在1998年被严乐春初次使用

第四讲：作业

图像的数据来源：
1. ImageNet、PASCAL VOC…
2. https://blog.csdn.net/u012966194/article/details/79676516
sift feature是什么？可以用来干什么？金字塔匹配思想是什么？可以用来干什么？hog特征是什么？可以用来干什么？
1. SIFT（Scale-invariant feature transform，尺度不变特征变换）是一种检测局部特征的算法，该算法通过求一幅图中的特征点的描述子得到特征并进行图像特征点匹配。用在特征匹配方面，像图片拼接、目标检测等都有sift的身影。
2. 图像金字塔是图像多尺度表达的一种，是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低，且来源于同一张原始图的图像集合。其通过梯次向下采样获得，直到达到某个终止条件才停止采样。
3. 方向梯度直方图（Histogram of Oriented Gradient, HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。
神经网络早就存在为什么最近才火？
1. 从数据角度讲，之前没有这么多的图像以及视频数据
2. 从硬件方面，神经网络对硬件的要求比较高，现在的硬件水平才慢慢符合它的要求。
图像任务有哪些？解决什么样的图像问题？
1. 图像分类：看图片中的物体具体是什么
2. 图像分割：将图像按照一定的特点分成若干部分
3. 目标检测：从图片中找出物体的位置
4. 语义分割：按照图片的内容，将不同物体与背景分离
5. 实例分割：在像素层面给出每个物体的像素