导论
问题:什么是图片(image)?
- 二值图片:(0,1)
- 灰度图片:(0,255)
- 彩色图片: (0,255)× RGB3通道
计算机视觉的任务:
对图片进行理解。
图片:单幅、多幅、视频
理解:形状、位置、运动、类别
计算机视觉的路线图:
2D –> 3D –> 语义信息(直接2D–>语义信息?)
表示层次与三阶段
human vision:
错觉 和 Gestalt理论 (计算机视觉应该像人一样吗?)
第一课 二值图像
特点:对内存要求小,同时能够保留足够的信息。
每个像素或者为0(称为背景),或者为1(称为前景)
算法1 把灰度图像转为二值图像 Otsu算法
几何特性:
1. 面积(零阶矩)、区域中心(一阶矩) y方向取负数
2. bounding box相关
方向:最小二乘法 伸长率 密集度
3. 欧拉数:连通分量数 - 洞数
投影计算:
提取图片的特征:竖直投影为直方图、水平投影为直方图、对角线投影(反映内部结构)
算法2 投影计算直方图
连通分量的定义和标记
算法3 连通分量标记
递归算法 序贯算法
区域边界跟踪
算法4 区域边界跟踪
bonus: 形态学算子