【深度之眼斯坦福CS231n训练营第七期】计算机视觉发展历史以及概念

本文详述了计算机视觉的发展历程,从17世纪的暗箱到现代深度学习的突破,包括关键的人物、事件和算法,如SIFT、HoG和CNN。此外,介绍了图像分类、目标检测等核心任务以及ImageNet比赛的重要性。
摘要由CSDN通过智能技术生成

本博客为记录在深度之眼学习斯坦福CS231n课程的一些笔记,后续会继续补充…

第一讲:课程简介

  • 计算机视觉概述
    • 据思科,截止到2017年,互联网上80%的数据为视频
    • YouTube:几乎每秒钟都有长达五小时的内容会被上传到YouTube

第二讲:视觉发展史

  • 视觉的历史可以追溯到约5亿4千3百万年前
  • 最早的照相机:17世纪文艺复兴时期的通过小孔成像的暗箱,与动物早期的眼睛相似
  • 研究发现视觉处理始于视觉世界的简单结构
  • 计算机视觉历史从20世纪60年代开始,Larry Roberts出版了一个Block World,被称为第一篇计算机视觉的博士论文,其中视觉世界被简化为简单的几何形状,目的是重建
  • 1966年,MIT暑期项目,争取用暑假的时间解决计算机视觉中的问题,但50年过后才有大的进展
  • 70年代,David Marr出版了一本书vision
  • 80年代,David Lowe常识识别剃须刀,直线之间的组合
  • 伯克利的Jitendra Malik和他的学生Jianbo Shi用一个图算法对图像进行分割
  • “SIFT” & Object Recognition, David Lowe, 1999:Distinctive Image Features from Scale-Invariant Keypoints
  • 1999-2000年机器学习开始加速,svm、boosting,Paul Viola和Michael Jones使用AdaBoost算法实现了面部检测
  • Histogram of Gradients (HoG) Dalal & Triggs, 2005:Histograms of Oriented Gradients for Human Detection
  • 2006年富士推出第一个能在内部检测人脸的相机Spatial Pyramid Matching, Lazebnik, Schmid & Ponce, 2006
  • Deformable Part Model Felzenswalb, McAllester, Ramanan, 2009
  • 21世纪初才有标注的目标识别数据集:PASCAL VISUAL OBJECT CHALLENGE(PASCAL VOC),20个类别,每个种类有成千上万个图片
  • 为了防止机器学习过拟合,必须要增加样本量,所以出现了ImageNet的数据集,汇集所有能找到的图片,耗时三年才完成,22000类物体或场景
  • 2009年开始,ImageNet团队组织国际比赛,这个数据集共140万目标,1000种目标类别,用来测试识别算法
  • 2012年用卷积神经网络的比赛团队获得了胜利,AlexNet ,这一年CNN展示了强大的威力也有了很大的进步

第三讲:课程后勤

  • 图像的一些任务:图像分类,目标检测,图像描述
  • Imagenet比赛中的一些代表模型
  • Cnn在1998年被严乐春初次使用

第四讲:作业

  1. 图像的数据来源:
    1. ImageNet、PASCAL VOC…
    2. https://blog.csdn.net/u012966194/article/details/79676516
  2. sift feature是什么?可以用来干什么?金字塔匹配思想是什么?可以用来干什么?hog特征是什么?可以用来干什么?
    1. SIFT(Scale-invariant feature transform,尺度不变特征变换)是一种检测局部特征的算法,该算法通过求一幅图中的特征点的描述子得到特征并进行图像特征点匹配。用在特征匹配方面,像图片拼接、目标检测等都有sift的身影。
    2. 图像金字塔是图像多尺度表达的一种,是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。
    3. 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。
  3. 神经网络早就存在为什么最近才火?
    1. 从数据角度讲,之前没有这么多的图像以及视频数据
    2. 从硬件方面,神经网络对硬件的要求比较高,现在的硬件水平才慢慢符合它的要求。
  4. 图像任务有哪些?解决什么样的图像问题?
    1. 图像分类:看图片中的物体具体是什么
    2. 图像分割:将图像按照一定的特点分成若干部分
    3. 目标检测:从图片中找出物体的位置
    4. 语义分割:按照图片的内容,将不同物体与背景分离
    5. 实例分割:在像素层面给出每个物体的像素
├─1.计算机视觉简介、环境准备(python, ipython) │ computer vsion.pdf │ CS231 introduction.pdf │ ├─2.图像分类问题简介、kNN分类器、线性分类器、模型选择 │ 2. 图像分类简介、kNN与线性分类器、模型选择.mp4 │ 2.初识图像分类.pdf │ ├─3.再谈线性分类器 │ 3.再谈线性分类器.mp4 │ 再谈线性分类器.pdf │ ├─4.反向传播算法和神经网络简介 │ .反向传播算法和神经网络简介.pdf │ 4. 反向传播算法和神经网络简介.mp4 │ ├─5.神经网络训练1 │ 5.-神经网络训练1.pdf │ 5.神经网络训练1.mp4 │ ├─6.神经网络训练2、卷积神经网络简介 │ 6.神经网络训练2.mp4 │ 神经网络训练2.pdf │ ├─7.卷积神经网络 │ 7.卷积神经网络.mp4 │ Lession7.pdf │ ├─8.图像OCR技术的回顾、进展及应用前景 │ 8.图像OCR技术的回顾、进展及应用前景.mp4 │ PhotoOCR_xbai.pdf │ └─9.物体定位检测 物体定位检测.pdf │ ├─10.卷积神经网络可视化 │ .卷积神经网络可视化.pdf │ 10.卷积神经网络可视化.mp4 │ ├─11.循环神经网络及其应用 │ 11.循环神经网络及其应用.mp4 │ 循环神经网络.pdf │ ├─12.卷积神经网络实战 │ 12.卷积神经网络训练实战.mp4 │ 卷积神经网络实战.pdf │ ├─13.常见深度学习框架介绍 │ 常见深度学习框架介绍.pdf │ ├─14.图像切割 │ 14.图像切割.mp4
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值