图像信息处理

别忘带计算器

1.成像不同形式

 可见光,X光,超声波, 红外线

2.数字图像处理

图像采集:

Automatic aperture correction

color balance Image reconstruction

图像显示:

Automatic size adjustment

Color correction (CMYK vs. RGB)

图像存储和转化

High efficient storing: less temporal-spatial cost
Convenient transmission: Lossless, efficient, and secure
图像增强和恢复
Image restoration Inpainting
Improve visual effect dehazing,retinex,deblur,super-resolution

图像识别

Character recognition:OCR

object detection: face detection

Scene understanding image retrieval, scene classification
去马赛克:对于打码区域匹配全图中适合的地方。可以用kneara算法做聚类

3.图像压缩

压缩的目的:存储图像信息

无压缩:BMP

有损压缩:jpeg

无损压缩:png

BMP调色板:

N*4位大小,每4位分布是blue,green,red,zero,在bitmap里对调色板中的颜色索引进行引用
BitMap:
存储图像的信息,一般是bgr的顺序,在图像显示时是从左下开始向右,从下往上存储的。
类似于:

b=a[12]

g=a[13]

r=a[14]

b=a[15]

g=a[16]

r=a[17] 

...

b=a[0]

g=a[1]

r=a[2]

b=a[3]

g=a[4]

r=a[5] 

b=a[6]

g=a[7]

r=a[8]

每行的bitmap(数组a)的元素个数必须是4的倍数,若不是则剩下的补0.a[8]是该行第9个,因此a[9],a[10].a[11]补0,下一行从a[12]开始。

4.光圈孔径的影响

光圈孔径大的时候,会导致模糊;

如果孔径太小,可通过的光线就很少,导致光强太弱,同时当孔径小到一定程度时,会产生衍射现象。

5.弥散圆

通过使用透镜,合适的位置可以聚焦清晰的像,其他的位置产生弥散圆。

焦点的前后光线聚集或扩散,影像变得模糊。如果弥散圆的直径小于人眼辨别能力,则模糊影像不能被辨认。

不能被辨认的直径叫做容许弥散圆,焦点前后各有一个弥散圆

6.光圈对景深的影响

焦点前后各有一个容许弥散圆,他们之间的距离叫做景深

(1)、镜头光圈: 光圈越大,景深越小;光圈越小,景深越大;

(2)、镜头焦距 镜头焦距越长,景深越小;焦距越短,景深越大;

(3)、拍摄距离 距离越远,景深越大;距离越近,景深越小

只有拍摄距离和景深成正相关

7.数码相机拍摄过程

1.光线通过透镜进入CCD

2.CCD曝光,二极管受光线激发发出电信号

3.CCD收集信号传入放大器

4.放大器过滤和放大信号,传入ADC,ADC将电信号转化为数字信号

5.DSP进行颜色校正,数字信号转为图像文件

6.图像文件保存在存储卡上

8.彩色和消色

彩色是指红、黄、蓝等单色以及它们的混合色。彩色物体对光谱各波长的反射具有选择性,所以它们在白光照射下呈现出不同的颜色。

消色,也就是我们通常所说的灰度,是指白色,黑色以及各种深浅不同的灰色。消色物体对光谱各波长的反射没有选择性,它们是中性色。

9.红绿蓝波长

红>绿>蓝

10.棒状锥状细胞

Rods(棒状):一亿个,对光敏感但是不能分辨颜色。

Cones(锥状):0.6~0.8亿个,在强光下工作,可以分辨不同的颜色。

11.三原色

在视网膜上存在着三种分别对红、绿和蓝光线的波长特别敏感的视锥细胞或相应的感光色素,当不同波长的光线进入人眼时,与之相符或相近的视锥细胞发生不同程度的兴奋,于是在大脑产生相应的色觉;三种视锥细胞若受到同等程度的刺激,则产生消色。

12.视觉细胞感知优先度

优先程度:色调(Hue, H)>饱和度(Saturation, S)>亮度(Value, V)。

敏感度:亮度的变化最为敏感,分辨能力最强。恰好与人眼的高动态能力相匹配。

13.颜色空间和设备

与设备有关的颜色模型: RGB, CMY, HSV

设备无关的颜色模型:CIE CIE XYZ, CIE Lab和 CIE YUV

HSV符合人眼对颜色的感觉

14.加色和减色

减色:CMY模型产生的颜色,是因为它减掉了为视觉系统识别颜色所需要的反射光(用在打印机上,因为打印物是反射光)

加色:RGB

15.JEPG压缩策略

根据压缩比要求,从高频到低频逐步削减信息

高频信息占用存储空间大,减少高频信息更容易获得高压缩比;

低频信息可以保留物体的基本轮廓和色彩分布,最大限度维持图像质量。 适合用于互联网

16.Run length encoding(行程编码)

用二维列表表示,每个子列表代表图像中的一行

子列表第一个元素为行号,之后是坐标对(a,b),表示开始a到b结束的坐标。

17.二值化

 优点:存储更少,更高效,可以应用到灰度图上,更便宜

缺点:应用范围有限,不适用3D数据,表现力差,无法传递细节,不能控制对比度

二值化:确定阈值,超出阈值的置为255,小于阈值的置为0.

可以用小窗口局部自适应二值化,

可以用大津法:

对最小到最大的像素作为阈值进行迭代,

对每个阈值统计前景色和背景色个数和灰度值,计算前景色的均值和密度,背景色的均值和密度,图像均值。

计算类间方差、

选用方差最大的阈值。

18.形态学

 膨胀物理意义:将背景加入到前景,扩展边界,填补了空白

操作:选取结构元的某个中心点,将结构元的中心点遍历整张图像(结构元超出边界不算),若结构元和前景有重合,则将结构元的中心加入前景。

或者直接将集合A的每个元素和集合B每个元素相加。

 

 

 腐蚀物理意义:去除边界和不需要的毛刺

操作:将中心遍历所有前景,有一个和结构元不相同就将中心对应的前景加入到背景中

 

将A中的元素和B中的每一个相加,如果一个不在A中,将其从移出前景。

注意所有的操作是在另一张图上完成的,原来的图是不会变的。

对偶:(A\ominus B)^c=A^c\oplus B,(A\oplus B)^c=A^c\ominus B

c表示补集

补洞:将一个属于洞的赋值为前景色。再进行迭代。

X_k=(X_{k-1}\oplus B)\cap A^c

当Xk=Xk-1时说明迭代结束。

开操作:先腐蚀再膨胀

去除小物体,去除薄连接处

平滑大物体的边缘,保留原本的区域

闭操作:先膨胀再腐蚀

填补洞,连接相邻物体,

在平滑边缘的同时最大程度保留原区域

 第二个图的连接处被去除,为开操作,第三个图的连接处被填补,为闭操作。

19.Weber's Law

图像相邻灰度值之差和灰度级个数之比的关系,最大最小灰度级之比就是灰度级的个数,I是某个点的像素亮度:

\frac{\Delta I}{I}=K

\frac{I_{\min}}{I_{\max}}=(1+K)^{255}

20.Visibility enhancement

1.找到图中最大亮度

2.将亮度替换:L_d=\frac{\log (L_w+1))}{\log(L_{max}+1)}\times 255

21.直方图均衡化

将灰度值作为随机变量,则直方图表示了灰度值出现的概率密度。(横轴为灰度值,纵轴为出现的概率密度)

值为该灰度值出现的像素个数除以总的像素个数:

p(x)=\frac{n_x}{\sum n_i}

直方图均衡化就是找到映射T,s=T(r),计算映射后的第k个灰度级的值。

映射后的像素分布尽量均衡,就是概率密度恒为1。

两者在第k个灰度级时的概率是相同的,可以得到:F(s_k)=F(r_k),P(x<s_k)=P(y<r_k)

\int\limits_{0}^{r_k}p(x)dx=\int\limits_{0}^{s_k}1dy

s_k=\frac{\sum\limits_{i=0}^{r_k}n_i}{n}

实际操作:

第一行是序号k,第二行是第k个灰度值,第三行是第k个灰度值所占的像素个数

第四行是第k级灰度出现的概率密度:P(r_k)=\frac{n_k}{n}

第五行套用公式,将前面的概率全部加起来:s_k=s_{k-1}+P(r_k)

第六行将sk对应到具体的灰度值上

第七行重新计算相同灰度值的n

第八行再次计算概率密度

为什么没有实现真正的均衡化:计算出的sk不可能刚好等于8级灰阶中的某一阶,因此需要归结到相邻的灰度级中,这样不同灰度级处的概率密度可能不完全相同。

直方图变换。

有了上面的理论,可以将直方图变为任意函数,即找到映射r=G(z):

1.首先将直方图均衡化:s=T(r)=\int_{0}^rp(r)dr

2.将目标密度函数直方图均衡化:s'=G(z)=\int_{0}^zp(z)dz

3.两者均衡化的结果应该相同,因此:s=s',z=G^{-1}(s')=G(T(r))

真正计算的时候是迭代出相差最小z和GT(r)即可,不是真的去解。

直方图均衡化

原图,亮度增,亮度减

以上2:原图,对比拉伸(灰度级被扩大)

原图,颜色量化

原图,灰度线性化(增),灰度线性化(减)1处像素越多越暗

22.几何变换

平移,旋转,缩放(scale),错切,镜像

洞和插值:

图像大小改变后可能出现洞,比如旋转,错切和放大。

插值的方法可以有:

Row interpolation:按照行找洞,用同行的前一个填补

最近邻插值:

1.根据该几何变换的逆变换,计算点P在原图的位置P'

2.将P’的坐标变为整数

3.将P'的值赋给P

双线性插值:

1.定义双线性方程组:g(x,y)=ax+by+cxy+d(这是一个过四点的平面方程)

2.将A,B,C,D四点的位置和灰度值代入,得到方程组

3.解出a,b,c,d

4.代入点P的坐标,计算灰度值

23.Morph

大小相同的图A,B做静态转化,将A逐渐变为B

原理:A中像素值逐渐变为B中同位置的像素值。

方法:根据变化的快慢设置步长,可以选择等比或者等差的方法。

比如第i步A中像素的值为:I_i=I_A+\frac{I_B-I_A}{n}\cdot i

彩色图像则是rgb分量分别变化,也可以考虑rgb的相对关系同时变化。

24.表情映射

给定同一个人的不同表情A,A',给定第二个人的表情B

1.在A,B上标记面部特征点

2.通过v_b'=v_b+v_{a'}-v_a,将B变形为Bg

3.通过图像变形使得A,A',B对齐

4.计算表情比例图:R=\frac{A'}{A}

5.计算图B':B'=R\cdot B_g

25.卷积

学过概率的都知道,卷积可以看成x+y<z的分布函数。

真正计算h(x)和f(x)卷积的时候:

1.将h(t)变化为h(-t)

2.平移x得到h(x-t)

3.计算卷积:g(x)=\frac1M\sum\limits_{t=0}^{M-1}f(t)h(x-t),M为定义域长度

卷积函数的有限区间:对称后h(t)在滑过的位置(描述很不清晰,两个函数的定义域相同,且从0开始)

到h滑到右边,不在和f重合时就停止。

图像中的卷积:

是以该点为中心,3*3中9个点的加权求和。

26.滤波

均值滤波:

求邻近像素点的均值(高斯滤波的特例)代替中心像素点

中值滤波:

求邻近像素点的中值替代中心像素点

非线性的滤波,优点是图像不会变得太模糊,

拉普拉斯滤波:

分为两种权重:

\begin{bmatrix} 1&1 &1 \\ 1&-8 &1 \\ 1& 1 &1 \end{bmatrix}    \begin{bmatrix} 0 &1 & 0\\ 1 & -4& 1\\ 0&1 &0 \end{bmatrix}

优点是:让图像更加清晰鲜明,

缺点是:增大了噪声

双边滤波:

图像有空间域和灰度域,计算权重时需要都考虑进去。

空间域中,离中心点越近,则权值越高

灰度域中,和中心点的像素越接近,则权值越高

BF[I]_p=\frac{1}{W_p}\sum\limits_{q\in S}G_{\sigma_s}(||p-q||)G_{\sigma_r}(|I_p-I_q|)I_q

p:中心像素位置

q:邻域像素位置

S:考虑的邻域

\sigma_s:窗口的大小,被考虑的邻近点的最大距离

\sigma_r:边缘幅度的范围

W_p=\sum\limits_{q\in S}G_{\sigma_s}(||p-q||)G_{\sigma_r}(|I_p-I_q|)归一化参数

Gs是空间权值,Gr是灰度值的权值

双边滤波加速:

Guided filter

双边滤波可以确保梯度差不变,可能会发生梯度逆转,因为算的是绝对值

Guidede滤波可以确保梯度差和梯度方向不变

27.傅里叶变换和FFT

对一个函数进行傅里叶展开,可以得到不同频率的三角函数的线性组合。

低频部分保留了图像的主要信息,高频部分是噪声。

将高频去掉,达到降噪的效果。

快速傅里叶变化:FFT

想计算第k项傅里叶系数,区间为0到N

如果将区间上的点分为奇偶分别计算。

1.假设N=2M

2.将傅里叶变换拆为奇偶两部分,

\small F(k)=\frac{1}{2M}\sum\limits_{n=0}^{2M-1}f(n)W^{2n,k}_{2M}=\frac{1}{2}[\frac{1}{M}\sum\limits_{n=0}^{M-1}f(2n)W^{2n,k}_{2M}+\frac{1}{M}\sum\limits_{n=0}^{M-1}f(2n+1)W^{2n+1,k}_{2M}]

\small W^{2n,k}_{2M}=e^{\frac{-j2\pi2nk}{2M}}=W_{M}^{n,k}

\small W^{2n+1,k}_{2M}=e^{\frac{-j2\pi(2n+1)k}{2M}}=W_{M}^{n,k}W_{2M}^{k}

\small F_e(k)=\frac{1}{2M}\sum\limits_{n=0}^{M-1}f(2n)W^{n,k}_{M},\small F_o(k)=\frac{1}{2M}\sum\limits_{n=0}^{M-1}f(2n+1)W^{n,k}_{M}

得到了表达式,\small F(k)=F_e(k)+F_o(k)W_{2M}^{k}

而对于F(k+M),待入上式可得:

\small W_M^{n,k+M}=e^{\frac{-j2\pi n(k+M)}{M}}=W_{M}^{n,k}

\small W_{2M}^{n,k+M}=e^{\frac{-j2\pi n(k+M)}{2M}}=-W_{2M}^{k}

再代入得到:\small F(k+M)=F_e(k)-F_o(k)W_{2M}^{k}

可以看出,F(k)和F(k+M)只是差了一个中间的符号,因此计算Fe和Fo就能同时得到Fk和F(k+M)

之后就可以用递归做了。

28.幅值和相位

相位可以还原图像的轮廓,幅值不行,因此相位更加重要。

29.Harris 角点探测

在平面中移动,梯度几乎无变化,在边上移动,梯度在沿着边的方向几乎无变化,在角上移动,梯度几乎在任何方向变化。

定义能量函数

\small E(u,v)=\sum_{(x,y)\in W}[I(x+u,y+v)-I(x,y)]^2

将E一阶展开可得:

\small E=\sum (I_{x}u+I_yv)^2=\sum ([I_x,I_y]\begin{bmatrix} u\\v \end{bmatrix})^2=\sum [u,v]H\begin{bmatrix} u\\v \end{bmatrix}

\small H=\begin{bmatrix} I_x^2 &I_xI_y \\ I_yI_x & I_y^2 \end{bmatrix}

不变性:对于灰度值不变,对于位移不变,对于旋转不变

对于尺度敏感

Harris-Laplace角点检测算法:

1.不同尺度下,构建每一个点的矩阵H:

\small H=\begin{bmatrix} I_x^2 &I_xI_y \\ I_yI_x & I_y^2 \end{bmatrix}

2.对比邻域找到局部特征值最大的点

3.选用拉普拉斯算子作用后值最大的尺度

30.SIFT特征

1.将图片分为4*4=16个子窗口

2.计算子窗口中每个像素的梯度和角度

m(x,y)=\sqrt{[(L(x+1,y)-L(x-1,y)]^2+[L(x,y+1)-L(x,y-1)]^2}

\theta(x,y)=\alpha \tan(2\frac{L(x,y+1)-L(x,y-1)}{L(x+1,y)-L(x-1,y)})

3.忽略梯度太小的点

4.建立统计直方图,投票出角度最多的作为主特征方向。

SIFT特征是128维的:16个子窗口,每个窗口有8个方向,因此有16*8=128维

旋转不变性:

1.主梯度方向选择:计算每个的像素的梯度方向,做统计直方图,投票出主梯度方向。

2.当图像旋转后,主梯度也跟着旋转,因此SIFT特征不变

尺度不变性:

将图片分割为16个子窗口,不考虑子窗口中的像素多少,因此是尺度不变的。

应用:

图像匹配:将之前的文件pdf图片和当前桌上的进行对比,找到特征对应的

优点:

1.具有旋转,尺度,亮度不变性

2.细节描述详细

3.刚性物体描述极佳

缺点

1.提取特征时间复杂度高

2.非刚性物体(人脸)表现不好

31.SURF

SURF和SIFT

1.SIFT是128维,SURF是64维

2.SIFR的特征:子窗口8个方向的直方图。SURF的特征:一阶导和梯度值幅值

3.SURF:使用Haar 小波确定特征方向,SIFT使用统计直方图

SURF比SIFT的优势:

图像有噪声时,SIFT直方图中有不同方向的投票,主方向投票减少。

但是SURF的特征不会改变

SURF寻角步骤

1.寻找关键点:

计算积分图,

进行二阶导滤镜,

构建不同的尺度,

找到不同尺度不同点的极大值,

二阶插值

2.确定主梯度方向

计算每个方向Harr小波特征

将Harr小波最大的方向作为主特征方向。

32.图像拼接

1.提取特征点

2.计算SIFT特征

3.匹配SIFT特征

4.计算变换矩阵

5.RANSAC增强变换

6.图像融合

RANSAC:

1.随机选取一些点

2.最小二乘法拟合这些点

3.计算未被选取的点到线的距离是否小于阈值,称为闭点

4.如果闭点足够多,则用闭点重新计算直线

5.重复3,4。当误差足够小时退出

34.卷积神经网络

反向传播训练CNN

1.随机初始化权值,计算输出hw(x)

2.计算误差E=(h_W(x)-y)^2

3.更新权值

W_k=W_{K-1}-\epsilon\frac{\partial E}{\partial W_k}

CNN优点:

1.如果将所有像素都连接,将会导致参数太多。

2.由于图像有稀疏性,只需要关注局部特征,再将局部特征进行连接即可。图像稀疏性:图像的特征点是稀疏的

由于图像有相似性,不同局部特征的参数可以共享。图像相似性:不同位置的图像可能具有类似的特征

这样就大大减少了参数

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值