别忘带计算器
1.成像不同形式
可见光,X光,超声波, 红外线
2.数字图像处理
图像采集:
Automatic aperture correction
color balance Image reconstruction
图像显示:
Automatic size adjustment
Color correction (CMYK vs. RGB)
图像存储和转化
图像识别
Character recognition:OCR,
object detection: face detection
3.图像压缩
无压缩:BMP
有损压缩:jpeg
无损压缩:png
BMP调色板:
b=a[12] g=a[13] r=a[14] | b=a[15] g=a[16] r=a[17] | ... |
b=a[0] g=a[1] r=a[2] | b=a[3] g=a[4] r=a[5] | b=a[6] g=a[7] r=a[8] |
每行的bitmap(数组a)的元素个数必须是4的倍数,若不是则剩下的补0.a[8]是该行第9个,因此a[9],a[10].a[11]补0,下一行从a[12]开始。
4.光圈孔径的影响
光圈孔径大的时候,会导致模糊;
如果孔径太小,可通过的光线就很少,导致光强太弱,同时当孔径小到一定程度时,会产生衍射现象。
5.弥散圆
通过使用透镜,合适的位置可以聚焦清晰的像,其他的位置产生弥散圆。
焦点的前后光线聚集或扩散,影像变得模糊。如果弥散圆的直径小于人眼辨别能力,则模糊影像不能被辨认。
不能被辨认的直径叫做容许弥散圆,焦点前后各有一个弥散圆
6.光圈对景深的影响
焦点前后各有一个容许弥散圆,他们之间的距离叫做景深
(1)、镜头光圈: 光圈越大,景深越小;光圈越小,景深越大;
(2)、镜头焦距 镜头焦距越长,景深越小;焦距越短,景深越大;
(3)、拍摄距离 距离越远,景深越大;距离越近,景深越小
只有拍摄距离和景深成正相关
7.数码相机拍摄过程
1.光线通过透镜进入CCD
2.CCD曝光,二极管受光线激发发出电信号
3.CCD收集信号传入放大器
4.放大器过滤和放大信号,传入ADC,ADC将电信号转化为数字信号
5.DSP进行颜色校正,数字信号转为图像文件
6.图像文件保存在存储卡上
8.彩色和消色
彩色是指红、黄、蓝等单色以及它们的混合色。彩色物体对光谱各波长的反射具有选择性,所以它们在白光照射下呈现出不同的颜色。
消色,也就是我们通常所说的灰度,是指白色,黑色以及各种深浅不同的灰色。消色物体对光谱各波长的反射没有选择性,它们是中性色。
9.红绿蓝波长
红>绿>蓝
10.棒状锥状细胞
Rods(棒状):一亿个,对光敏感但是不能分辨颜色。
Cones(锥状):0.6~0.8亿个,在强光下工作,可以分辨不同的颜色。
11.三原色
在视网膜上存在着三种分别对红、绿和蓝光线的波长特别敏感的视锥细胞或相应的感光色素,当不同波长的光线进入人眼时,与之相符或相近的视锥细胞发生不同程度的兴奋,于是在大脑产生相应的色觉;三种视锥细胞若受到同等程度的刺激,则产生消色。
12.视觉细胞感知优先度
优先程度:色调(Hue, H)>饱和度(Saturation, S)>亮度(Value, V)。
敏感度:亮度的变化最为敏感,分辨能力最强。恰好与人眼的高动态能力相匹配。
13.颜色空间和设备
与设备有关的颜色模型: RGB, CMY, HSV
设备无关的颜色模型:CIE CIE XYZ, CIE Lab和 CIE YUV
HSV符合人眼对颜色的感觉
14.加色和减色
减色:CMY模型产生的颜色,是因为它减掉了为视觉系统识别颜色所需要的反射光(用在打印机上,因为打印物是反射光)
加色:RGB
15.JEPG压缩策略
根据压缩比要求,从高频到低频逐步削减信息
高频信息占用存储空间大,减少高频信息更容易获得高压缩比;
低频信息可以保留物体的基本轮廓和色彩分布,最大限度维持图像质量。 适合用于互联网
16.Run length encoding(行程编码)
用二维列表表示,每个子列表代表图像中的一行
子列表第一个元素为行号,之后是坐标对(a,b),表示开始a到b结束的坐标。
17.二值化
优点:存储更少,更高效,可以应用到灰度图上,更便宜
缺点:应用范围有限,不适用3D数据,表现力差,无法传递细节,不能控制对比度
二值化:确定阈值,超出阈值的置为255,小于阈值的置为0.
可以用小窗口局部自适应二值化,
可以用大津法:
对最小到最大的像素作为阈值进行迭代,
对每个阈值统计前景色和背景色个数和灰度值,计算前景色的均值和密度,背景色的均值和密度,图像均值。
计算类间方差、
选用方差最大的阈值。
18.形态学
膨胀物理意义:将背景加入到前景,扩展边界,填补了空白
操作:选取结构元的某个中心点,将结构元的中心点遍历整张图像(结构元超出边界不算),若结构元和前景有重合,则将结构元的中心加入前景。
或者直接将集合A的每个元素和集合B每个元素相加。
腐蚀物理意义:去除边界和不需要的毛刺
操作:将中心遍历所有前景,有一个和结构元不相同就将中心对应的前景加入到背景中
将A中的元素和B中的每一个相加,如果一个不在A中,将其从移出前景。
注意所有的操作是在另一张图上完成的,原来的图是不会变的。
对偶:
c表示补集
补洞:将一个属于洞的赋值为前景色。再进行迭代。
当Xk=Xk-1时说明迭代结束。
开操作:先腐蚀再膨胀
去除小物体,去除薄连接处
平滑大物体的边缘,保留原本的区域
闭操作:先膨胀再腐蚀
填补洞,连接相邻物体,
在平滑边缘的同时最大程度保留原区域
第二个图的连接处被去除,为开操作,第三个图的连接处被填补,为闭操作。
19.Weber's Law
图像相邻灰度值之差和灰度级个数之比的关系,最大最小灰度级之比就是灰度级的个数,I是某个点的像素亮度:
20.Visibility enhancement
1.找到图中最大亮度
2.将亮度替换:
21.直方图均衡化
将灰度值作为随机变量,则直方图表示了灰度值出现的概率密度。(横轴为灰度值,纵轴为出现的概率密度)
值为该灰度值出现的像素个数除以总的像素个数:
直方图均衡化就是找到映射T,s=T(r),计算映射后的第k个灰度级的值。
映射后的像素分布尽量均衡,就是概率密度恒为1。
两者在第k个灰度级时的概率是相同的,可以得到:
实际操作:
第一行是序号k,第二行是第k个灰度值,第三行是第k个灰度值所占的像素个数
第四行是第k级灰度出现的概率密度:
第五行套用公式,将前面的概率全部加起来:
第六行将sk对应到具体的灰度值上
第七行重新计算相同灰度值的n
第八行再次计算概率密度
为什么没有实现真正的均衡化:计算出的sk不可能刚好等于8级灰阶中的某一阶,因此需要归结到相邻的灰度级中,这样不同灰度级处的概率密度可能不完全相同。
直方图变换。
有了上面的理论,可以将直方图变为任意函数,即找到映射r=G(z):
1.首先将直方图均衡化:
2.将目标密度函数直方图均衡化:
3.两者均衡化的结果应该相同,因此:
真正计算的时候是迭代出相差最小z和GT(r)即可,不是真的去解。
直方图均衡化
原图,亮度增,亮度减
以上2:原图,对比拉伸(灰度级被扩大)
原图,颜色量化
原图,灰度线性化(增),灰度线性化(减)1处像素越多越暗
22.几何变换
平移,旋转,缩放(scale),错切,镜像
洞和插值:
图像大小改变后可能出现洞,比如旋转,错切和放大。
插值的方法可以有:
Row interpolation:按照行找洞,用同行的前一个填补
最近邻插值:
1.根据该几何变换的逆变换,计算点P在原图的位置P'
2.将P’的坐标变为整数
3.将P'的值赋给P
双线性插值:
1.定义双线性方程组:(这是一个过四点的平面方程)
2.将A,B,C,D四点的位置和灰度值代入,得到方程组
3.解出a,b,c,d
4.代入点P的坐标,计算灰度值
23.Morph
大小相同的图A,B做静态转化,将A逐渐变为B
原理:A中像素值逐渐变为B中同位置的像素值。
方法:根据变化的快慢设置步长,可以选择等比或者等差的方法。
比如第i步A中像素的值为:
彩色图像则是rgb分量分别变化,也可以考虑rgb的相对关系同时变化。
24.表情映射
给定同一个人的不同表情A,A',给定第二个人的表情B
1.在A,B上标记面部特征点
2.通过,将B变形为Bg
3.通过图像变形使得A,A',B对齐
4.计算表情比例图:
5.计算图B':
25.卷积
学过概率的都知道,卷积可以看成x+y<z的分布函数。
真正计算h(x)和f(x)卷积的时候:
1.将h(t)变化为h(-t)
2.平移x得到h(x-t)
3.计算卷积:,M为定义域长度
卷积函数的有限区间:对称后h(t)在滑过的位置(描述很不清晰,两个函数的定义域相同,且从0开始)
到h滑到右边,不在和f重合时就停止。
图像中的卷积:
是以该点为中心,3*3中9个点的加权求和。
26.滤波
均值滤波:
求邻近像素点的均值(高斯滤波的特例)代替中心像素点
中值滤波:
求邻近像素点的中值替代中心像素点
非线性的滤波,优点是图像不会变得太模糊,
拉普拉斯滤波:
分为两种权重:
优点是:让图像更加清晰鲜明,
缺点是:增大了噪声
双边滤波:
图像有空间域和灰度域,计算权重时需要都考虑进去。
空间域中,离中心点越近,则权值越高
灰度域中,和中心点的像素越接近,则权值越高
p:中心像素位置
q:邻域像素位置
S:考虑的邻域
:窗口的大小,被考虑的邻近点的最大距离
:边缘幅度的范围
归一化参数
Gs是空间权值,Gr是灰度值的权值
双边滤波加速:
略
Guided filter
双边滤波可以确保梯度差不变,可能会发生梯度逆转,因为算的是绝对值
Guidede滤波可以确保梯度差和梯度方向不变
27.傅里叶变换和FFT
对一个函数进行傅里叶展开,可以得到不同频率的三角函数的线性组合。
低频部分保留了图像的主要信息,高频部分是噪声。
将高频去掉,达到降噪的效果。
快速傅里叶变化:FFT
想计算第k项傅里叶系数,区间为0到N
如果将区间上的点分为奇偶分别计算。
1.假设
2.将傅里叶变换拆为奇偶两部分,
,
得到了表达式,
而对于F(k+M),待入上式可得:
再代入得到:
可以看出,F(k)和F(k+M)只是差了一个中间的符号,因此计算Fe和Fo就能同时得到Fk和F(k+M)
之后就可以用递归做了。
28.幅值和相位
相位可以还原图像的轮廓,幅值不行,因此相位更加重要。
29.Harris 角点探测
在平面中移动,梯度几乎无变化,在边上移动,梯度在沿着边的方向几乎无变化,在角上移动,梯度几乎在任何方向变化。
定义能量函数
将E一阶展开可得:
不变性:对于灰度值不变,对于位移不变,对于旋转不变
对于尺度敏感
Harris-Laplace角点检测算法:
1.不同尺度下,构建每一个点的矩阵H:
2.对比邻域找到局部特征值最大的点
3.选用拉普拉斯算子作用后值最大的尺度
30.SIFT特征
1.将图片分为4*4=16个子窗口
2.计算子窗口中每个像素的梯度和角度
3.忽略梯度太小的点
4.建立统计直方图,投票出角度最多的作为主特征方向。
SIFT特征是128维的:16个子窗口,每个窗口有8个方向,因此有16*8=128维
旋转不变性:
1.主梯度方向选择:计算每个的像素的梯度方向,做统计直方图,投票出主梯度方向。
2.当图像旋转后,主梯度也跟着旋转,因此SIFT特征不变
尺度不变性:
将图片分割为16个子窗口,不考虑子窗口中的像素多少,因此是尺度不变的。
应用:
图像匹配:将之前的文件pdf图片和当前桌上的进行对比,找到特征对应的
优点:
1.具有旋转,尺度,亮度不变性
2.细节描述详细
3.刚性物体描述极佳
缺点
1.提取特征时间复杂度高
2.非刚性物体(人脸)表现不好
31.SURF
SURF和SIFT
1.SIFT是128维,SURF是64维
2.SIFR的特征:子窗口8个方向的直方图。SURF的特征:一阶导和梯度值幅值
3.SURF:使用Haar 小波确定特征方向,SIFT使用统计直方图
SURF比SIFT的优势:
图像有噪声时,SIFT直方图中有不同方向的投票,主方向投票减少。
但是SURF的特征不会改变
SURF寻角步骤
1.寻找关键点:
计算积分图,
进行二阶导滤镜,
构建不同的尺度,
找到不同尺度不同点的极大值,
二阶插值
2.确定主梯度方向
计算每个方向Harr小波特征
将Harr小波最大的方向作为主特征方向。
32.图像拼接
1.提取特征点
2.计算SIFT特征
3.匹配SIFT特征
4.计算变换矩阵
5.RANSAC增强变换
6.图像融合
RANSAC:
1.随机选取一些点
2.最小二乘法拟合这些点
3.计算未被选取的点到线的距离是否小于阈值,称为闭点
4.如果闭点足够多,则用闭点重新计算直线
5.重复3,4。当误差足够小时退出
34.卷积神经网络
反向传播训练CNN
1.随机初始化权值,计算输出hw(x)
2.计算误差
3.更新权值
CNN优点:
1.如果将所有像素都连接,将会导致参数太多。
2.由于图像有稀疏性,只需要关注局部特征,再将局部特征进行连接即可。图像稀疏性:图像的特征点是稀疏的
由于图像有相似性,不同局部特征的参数可以共享。图像相似性:不同位置的图像可能具有类似的特征
这样就大大减少了参数