斯坦福李飞飞团体的计算机视觉笔记(不定时更新)
第一章 计算机视觉概述
计算机视觉(computer vision):针对视觉数据的研究。
近几年,视觉数据的数量呈爆炸式增长,被称为互联网的暗物质。它们构成了互联网上传输的大部分数据。
麻省理工学院视觉科学家 David Marr:
输入图像➡️原始草图(大部分边缘edge、端点、虚拟线条)➡️2.5维草图(表面深度信息层、视觉场景不连续拼接)➡️3D模型
研究的历史过程:
目标分割➡️面部检测➡️基于特征的目标识别(SIFT特征)➡️SVM、方向梯度直方图等➡️出现标注数据集优化目标识别➡️出现过拟合问题➡️提出ImageNet工程打造数据集
引出本次课程的内容:围绕“图像分类”讲解在ImageNet比赛中获奖的模型算法等,并拓展一些其他方面的应用。
补充:CNN最早用于数字识别(Yann LeCun等人在1998于Bell实验室进行数字识别研究,以用于识别手写支票及邮局地址,也可以识别字母),该项工作与2012年提出的AlexNet非常相似。