计算机视觉是一门跨学科的领域,比如工程、物理、生物、心理学、计算机科学以及数学。
简史
- 视觉是进化大爆发的驱动力
- 生物的大脑是如何处理视觉信息的
- 基础视觉皮质层:列排列,每一列处理简单的形状
- 视觉处理的第一步是简单的形状结构处理、边缘、排列
- David Marr
- 视觉是分层的。
- 视觉架构:边缘模型->2.5D->3D
- 模型
- Generalized Cylinder:世界是简单物体的组合
- Pictorial Structure:简单组合+弹簧连接
*成就 - 感知分组
- 人脸检测
- 特征学习
- 场景识别
- 基准测试
- Pascal visual object challenge
- imagenet
- 两大基础
- 边缘处理
- 视觉分层
课程主要内容
- 识别和分类
- object detection
- action classification
- image captioning
- CNN
- Kunihiko Fukushima 提出了模型 Neocognition
- Yann Lecun 反向求导、学习策略、手写识别
待解决的问题
- 视觉智能远远大于物体识别
- 对整个照片进行密集标记、感知分组
- 将识别和3d整合起来
- 动作和场景
- 探究物体之间的关联(visual genome)