引言
Gestalt laws
Marr视觉表示框架的三个阶段
- Primal Sketch
- 2.5D Sketch
- 3D Model
二值图
几何特性
尺寸和位置,方向,伸长率,密度集,形态比,欧拉数
投影计算
水平、垂直
连通区域
递归算法(DFS、BFS)
序贯算法:
- 从左到右,从上到下扫描图像
- 如果像素点为1,则
- 如果上面点和左面点有且仅有一个标记,则复制这个标记
- 如果两点有相同标记,复制这一标记
- 如果两点有不同标记,则复制上点的标记且将两个标记输入等价表中作为等价标记中作为等价标记
- 否则给这一个像素点分配一新的标记并将这一标记输入等价表
- 如果需要考虑更多点,则返回(2)
- 在等价表的每一个等价集中找到最低的标记
- 扫描图像,用等价表中的最低标记取代每一个标记
区域边界跟踪算法:
- 从左到右,从上到下扫描图像,求区域S的起始点
- 用c表示当前边界上被跟踪的像素点,置c=s(k),记c的左邻点为b,b∈S的补
- 按逆时针方向标记从b开始的c的8个8邻点分别为n1,n2…n8,k=k+1
- 从b开始,沿逆时针方向找到第一个ni∈S
- 置 c=s(k)=ni, b=ni-1
- 重复步骤345,直到s(k)=s(0)
边缘
Origin of Edges
四种最主要的不连续
- suface normal discontinuity
- depth discontinuity
- surface color discontinuity
- illumination discontinuity
边缘检测的基本思想
函数导数反映图像灰度变化的显著程度
一阶导数的局部最大值,或二阶导数的过零点
基于一阶导数的边缘检测
梯度(gradient)->梯度的幅值、方向 ->图像用差分近似偏导数
- Roberts交叉算子
- Sobel算子(c=1)
- Prewitt算子(运算较快)
- Sethi算子 (c=3)
基于二阶导数的边缘检测
Laplacian 算子
Laplacian of Gaussian:
- 平滑滤波器是高斯滤波器
- 采用拉普拉斯算子计算二阶导数
- 边缘检测判据是二阶导数零交叉点并对应一阶导数的较大峰值
- 使用线性内插方法在子像素分辨率水平上估计边缘的位置
Canny边缘检测
- 高斯滤波平滑图像
- 用一阶偏导有限差分计算梯度幅值和方向
- 对梯度幅值进行非极大抑制(NMS)
- 用双阈值算法检测和连接边缘
高斯滤波器:平滑去噪和边缘检测是一对矛盾,应用高斯函数的一阶导数,在二者之间获得最佳的平衡
高低两个阈值及对应边缘图:连接高阈值边缘图,出现断点时,在低阈值边缘图中的8邻点域搜寻边缘点
局部特征
Harris Corner Detector
SIFT描述子计算
步骤
- 将16*16的window划分为4*4的cell
- 对每个cell计算orientation histogram
- 得到16(cells)*8(orientation) =128 维的描述子
为什么只使用梯度信息:梯度信息可以表示边缘信息,并且在光照变化时有抵抗能力
如何实现旋转不变
如何实现尺度不变
https://www.quora.com/Computer-Vision/How-is-object-detection-using-SIFT-keypoints-scale-rotationally-invariant
曲线
曲线表示
显示、隐式、参数
长度、切向量、曲率
曲线拟合
Douglas-Peucher算法
- 对每条离散曲线的首末点虚连一条直线,求所有点与直线的距离,求所有点与直线的距离,并找出距离最大值dmax,用dmax与阈值D相比
- 小于,则这条曲线上中间点全部舍去
- 大于等于,保留对应的点,并以该点为界,把曲线分为两部分,对这两部分重复使用这种方法
Hough变换
- 适当地量化参数空间
- 假定参数空间的每一个单元都是一个累加器,把累加器初始化为0
- 对图像空间的每一点,在其所满足的采纳数方程对应的累加器上加1
- 累加器阵列的最大值对应模型的参数
图像频域
图像的傅里叶变换
基本含义、高频与低频成分
怎么理解拉普拉斯金字塔的每一层是带通的
拉普拉斯金字塔的每一层L0图像是高斯金字塔本层G0图像与其高一层图像G1经内插放大后图像*G1的差,此过程相当于带通滤波,因此拉普拉斯金字塔又称为带通金字塔分解。
相机模型
景深、光圈、焦距、视场
光圈对景深的影响(反比)
焦距对景深的影响(反比)
理想的针孔相机(pinhole camera)模型
基本投影公式
齐次坐标形式下的透视投影公式
畸变参数(k1,k2,p1,p2,k3)
内参矩阵(fx,fy,cx,cy)
外参(θ,φ,ψ,tx,ty,tz)
外参、内参、畸变参数在成像各阶段中的角色
畸变
径向畸变(Radial Distortion):远离透镜中心的地方比靠近中心的地方更加弯曲
Barrel & Pin-cushion(桶形畸变和枕形畸变)
Caused by imperfect lenses
- The geometry of the lens (透镜几何性质)
- Aperture position(孔径位置)
切向畸变(Tangential Distortion):透镜不完全平行于图像平面
Caused by the decentering of the optical component
相机定标
基于棋盘/Homography的相机定标
- Calibration object
- Find the corners from images
- Construct the equations
- Solve the equations to get the camera parameters
立体视觉
立体视觉的三角测量基本原理
立体视觉的基本步骤
- Undistortion(消除畸变)
- Rectification(校正相机)
- Make cameras row-aligned
- Hartley’s algorithm 、Bouguet’s algorithm
- Correspondence(两幅图中找到相同特征)
- Reprojection(三角测量)
Stereo matching的基本步骤
三维数据获取
结构光成像系统的构成
Projector、CCD camera、depth recovery system
利用结构光获取三维数据的基本原理
人脸识别
主元分析(PCA)
PCA方法作用及意义
优化目标函数的推导
Eigenface
含义
基本步骤
- 获得人脸图像的训练集,通常为整个人脸数据库
- 对所有人脸图像做归一化处理(切出脸部区域,直方图均衡化)
- 通过PCA计算获得一组特征向量(特征脸)。通常一百个特征向量足够。
- 将每幅人脸图像都投影到由该组特征向量张成的子空间中,得到在该子空间坐标
- 对输入的一幅待测图像,归一化后,将其映射到特征脸子空间中。然后用某种距离度量来描述人脸图像的相似性(如欧式距离)
重构:将输入图像分解成若干个特征脸的线性组合;以及用于人脸检测的原理
光流
解决问题
三个基本假设
- brightness constancy
- spatial coherence
- small motion
一个点的约束公式
哪些位置光流比较可靠
图像分割
目标
Group pixel into meaningful or perceptually similar regions
基于kmeans聚类的图像分割
- Randomly select K centers
- Assign each point to nearest center
- Compute new center(mean) for each cluster
- Back to 2 if no convergence
物体识别
目标
- Classify images or videos
- Detect and localize objects
- Estimate semantic and geometrical attributes
- Classify human activities and events
基于词带(BOW)的物体分类
- Feature extraction and representation
- Building codebook(codewords dictionary) from training samples with clustering
- Represent an image with histogram of codebook(i.e. Bag-of-words of an image)
- Classify an unknown image with its Bow