一. 一些前导和同步课程
- CS131:Computer Vision: Foundations and Applications
- CS231a: Computer Vision, from 3D Reconstruction to Recognition
- CS 224n: Natural Language Processing with Deep Learning
- CS 230: Deep Learning,Andrew Ng
二. 计算机视觉的发展历程
- (1) 五亿四千万年前,出现生物大爆炸,有研究称是由于眼睛被进化出来。
- (2) 16世纪时,出现照相机,利用了小孔成像原理。
- (3) 上世纪60年代,对猫的视觉中枢部分进行研究,发现分层结构:不同层级的神经元逐步将简单的视觉信息组合成复杂信息。
- (4) 1963年,计算机视觉领域的第一篇博士论文:Block World,识别并重建简单形状。
- (5) 1966年,MIT视觉工程暑期项目,声称要花一个暑假的时间构建计算机视觉领域的框架。
- (6) 上世纪70年代,一本Vision的书,如何逐步构建计算机视觉:由边、角、点搭建2D草图,由曲面朝向等构建2.5D草图,最终由曲面、空间体等要素形成3D重建。
- (7) 上世纪80年代:将3D世界简化为简单图形,如将人体简化为多个圆柱体按一定距离组合在一起;将剃须刀简化为线图。
- (8) 上世纪90年代:统计机器学习方法开始加速发展,支持向量机模型、boosting方法,图模型等,还有基于AdaBoost的人脸检测算法。
- (9) 本世纪初,基于特征的图像识别算法,SIFT算子。
- (10) 本世纪:数据驱动的计算机视觉领域,PASCAL数据集,20类别,每个类别成千上万张图片。ImageNet数据集:1400万张图,22000个类别。ImageNet竞赛:140万张图,2000个类别。
- (11) 深度神经网络:2012年,使用卷积神经网络,将ImageNet竞赛中的错误率由25%降低到16%,降幅将近10%。2012年采用的AlexNet深度为7层,2014年,Google的研究人员提出19层的VGG;2015年,MSRA提出152层的ResNet。
三. 本课程的主要内容
专注于图像分类,会涉及目标检测、图像描述,以及诸如图像风格迁移等前沿方向。
四. 主要技术手段与工具
- 卷积神经网络。
- 编程语言:python。
- 第三方包:Numpy,Matplot。
- IDE:Jupyter Notebook
备注
CS231n
为斯坦福李飞飞老师开设的计算机视觉领域的课程。最新的资源是2018年的,但没有开放视频。因此,本系列博文是依托于2017年的相关材料。