计算视觉
导论
认知 谋划 行动,三个层次,认知能力欠缺
思考 阅读 交流 实现,四个步骤,缺少交流
David Marr的视觉计算理论
- 1945-1980,英年早逝
- 论文推荐 Cooperative computation of stereo disparity, Science
- 论文推荐 Theory of edge detection
- this book is meant to enjoyed 这本书意味着一种享受
信息处理的三个层次
- 计算理论
收款机做的是算数运算,涉及到加法理论。
收款机计算理论:①不买物不付钱(零规则)②价格输入顺序不影响总价格(交换律)③分批输入价格不影响总价格(结合律)④退货后支出是零(反数)
计算策略:以6×9-2×6为例。策略①54-12=42。策略② 6×(9-2)=42 - 表示和算法
- 硬件实现
视觉表示框架
- 第一阶段 以原始图像为输入,抽取边缘、纹理等基本特征,称为基元草图
- 第二阶段 以原始图像、基元草图为输入,以观测者为中心,抽取深度信息,但不是真正的物体三维表述,称为二维半草图
- 第三阶段 以原始图像、基元草图、二维半草图为输入,以物体为中心,恢复、表示和识别三维物体
一些书籍(Marr吹)
- 《惊人的假设——灵魂的科学探索》汪云九 译
- 《认知科学导论》 章士嵘 人民出版社 1992
- 《认知心理学》 梁宁建 上海教育出版社 2003
- 《心智、大脑和计算机——认知科学基础导论》 RM哈尼什 浙江大学出版社 2010
- 《认知神经科学:关于心智的生物学》 GazzanigaMS 中国轻飞业出版社 2011
计算机视觉研究的五大研究分支
- 输入装置
计算摄像学,研究成像装置和数字化装置。 - 低层视觉
对原始图像加工和处理,提取图像的基本特征,还包括图像变换(矫正)、纹理检测等。 - 中层视觉
恢复场景的深度、表面法线方向、轮廓等有关场景的2.5维信息。实现的途径有:立体视觉、测距成像、运动估计等。 - 高层视觉
恢复物体的完整三维图,建立三维描述,识别三维物体并确定物体的位置和方向。 - 体系结构
在高度抽象的层次上,根据系统模型而不是实现设计的具体例子来研究系统的结构。体系结构研究涉及一系列相关的课题:并行结构、分层结构、信息流结构、拓扑结构以及从设计到实现的途径。
计算机视觉的应用
视觉的特性
- 错位性
- 整体性
- 恒定性
- 视动性
- 多感知通道的相互影响
麦格克McGurk效应