图像处理与计算机视觉技术详解-CSDN博客

本文链接：https://blog.csdn.net/HGGshiwo/article/details/112695462

别忘带计算器

1.成像不同形式

可见光，X光，超声波, 红外线

2.数字图像处理

图像采集：

Automatic aperture correction

color balance Image reconstruction

图像显示：

Automatic size adjustment

Color correction (CMYK vs. RGB)

图像存储和转化

High efficient storing: less temporal-spatial cost

Convenient transmission: Lossless, efficient, and secure

图像增强和恢复

Image restoration ： Inpainting

Improve visual effect ： dehazing,retinex,deblur,super-resolution

图像识别

Character recognition：OCR，

object detection: face detection

Scene understanding ： image retrieval, scene classification

去马赛克：对于打码区域匹配全图中适合的地方。可以用kneara算法做聚类

3.图像压缩

压缩的目的：存储图像信息

无压缩：BMP

有损压缩：jpeg

无损压缩：png

BMP调色板：

N*4位大小，每4位分布是blue,green,red,zero，在bitmap里对调色板中的颜色索引进行引用

BitMap:

存储图像的信息，一般是bgr的顺序，在图像显示时是从左下开始向右，从下往上存储的。

类似于：

b=a[12]

g=a[13]

r=a[14]

b=a[15]

g=a[16]

r=a[17]

...

b=a[0]

g=a[1]

r=a[2]

b=a[3]

g=a[4]

r=a[5]

b=a[6]

g=a[7]

r=a[8]

每行的bitmap(数组a)的元素个数必须是4的倍数，若不是则剩下的补0.a[8]是该行第9个，因此a[9],a[10].a[11]补0，下一行从a[12]开始。

4.光圈孔径的影响

光圈孔径大的时候，会导致模糊；

如果孔径太小，可通过的光线就很少，导致光强太弱，同时当孔径小到一定程度时，会产生衍射现象。

5.弥散圆

通过使用透镜，合适的位置可以聚焦清晰的像，其他的位置产生弥散圆。

焦点的前后光线聚集或扩散，影像变得模糊。如果弥散圆的直径小于人眼辨别能力，则模糊影像不能被辨认。

不能被辨认的直径叫做容许弥散圆，焦点前后各有一个弥散圆

6.光圈对景深的影响

焦点前后各有一个容许弥散圆，他们之间的距离叫做景深

(1)、镜头光圈：光圈越大，景深越小；光圈越小，景深越大；

(2)、镜头焦距镜头焦距越长，景深越小；焦距越短，景深越大；

(3)、拍摄距离距离越远，景深越大；距离越近，景深越小

只有拍摄距离和景深成正相关

7.数码相机拍摄过程

1.光线通过透镜进入CCD

2.CCD曝光，二极管受光线激发发出电信号

3.CCD收集信号传入放大器

4.放大器过滤和放大信号，传入ADC,ADC将电信号转化为数字信号

5.DSP进行颜色校正，数字信号转为图像文件

6.图像文件保存在存储卡上

8.彩色和消色

彩色是指红、黄、蓝等单色以及它们的混合色。彩色物体对光谱各波长的反射具有选择性，所以它们在白光照射下呈现出不同的颜色。

消色，也就是我们通常所说的灰度，是指白色，黑色以及各种深浅不同的灰色。消色物体对光谱各波长的反射没有选择性，它们是中性色。

9.红绿蓝波长

红>绿>蓝

10.棒状锥状细胞

Rods(棒状)：一亿个，对光敏感但是不能分辨颜色。

Cones(锥状)：0.6~0.8亿个，在强光下工作，可以分辨不同的颜色。

11.三原色

在视网膜上存在着三种分别对红、绿和蓝光线的波长特别敏感的视锥细胞或相应的感光色素，当不同波长的光线进入人眼时，与之相符或相近的视锥细胞发生不同程度的兴奋，于是在大脑产生相应的色觉；三种视锥细胞若受到同等程度的刺激，则产生消色。

12.视觉细胞感知优先度

优先程度：色调（Hue, H）>饱和度（Saturation, S）>亮度（Value, V）。

敏感度：亮度的变化最为敏感，分辨能力最强。恰好与人眼的高动态能力相匹配。

13.颜色空间和设备

与设备有关的颜色模型: RGB, CMY, HSV

设备无关的颜色模型：CIE CIE XYZ, CIE Lab和 CIE YUV

HSV符合人眼对颜色的感觉

14.加色和减色

减色：CMY模型产生的颜色，是因为它减掉了为视觉系统识别颜色所需要的反射光（用在打印机上，因为打印物是反射光）

加色：RGB

15.JEPG压缩策略

根据压缩比要求，从高频到低频逐步削减信息

高频信息占用存储空间大，减少高频信息更容易获得高压缩比；

低频信息可以保留物体的基本轮廓和色彩分布，最大限度维持图像质量。适合用于互联网

16.Run length encoding(行程编码)

用二维列表表示，每个子列表代表图像中的一行

子列表第一个元素为行号，之后是坐标对(a,b)，表示开始a到b结束的坐标。

17.二值化

优点：存储更少，更高效，可以应用到灰度图上，更便宜

缺点：应用范围有限，不适用3D数据，表现力差，无法传递细节，不能控制对比度

二值化：确定阈值，超出阈值的置为255，小于阈值的置为0.

可以用小窗口局部自适应二值化，

可以用大津法：

对最小到最大的像素作为阈值进行迭代，

对每个阈值统计前景色和背景色个数和灰度值，计算前景色的均值和密度，背景色的均值和密度，图像均值。

计算类间方差、

选用方差最大的阈值。

18.形态学

膨胀物理意义：将背景加入到前景，扩展边界，填补了空白

操作：选取结构元的某个中心点，将结构元的中心点遍历整张图像（结构元超出边界不算），若结构元和前景有重合，则将结构元的中心加入前景。

或者直接将集合A的每个元素和集合B每个元素相加。

腐蚀物理意义：去除边界和不需要的毛刺

操作：将中心遍历所有前景，有一个和结构元不相同就将中心对应的前景加入到背景中

将A中的元素和B中的每一个相加，如果一个不在A中，将其从移出前景。

注意所有的操作是在另一张图上完成的，原来的图是不会变的。

对偶： $(A\ominus B)^c=A^c\oplus B,(A\oplus B)^c=A^c\ominus B$

c表示补集

补洞：将一个属于洞的赋值为前景色。再进行迭代。

$X_k=(X_{k-1}\oplus B)\cap A^c$

当Xk=Xk-1时说明迭代结束。

开操作：先腐蚀再膨胀

去除小物体，去除薄连接处

平滑大物体的边缘，保留原本的区域

闭操作：先膨胀再腐蚀

填补洞，连接相邻物体，

在平滑边缘的同时最大程度保留原区域

第二个图的连接处被去除，为开操作，第三个图的连接处被填补，为闭操作。

19.Weber's Law

图像相邻灰度值之差和灰度级个数之比的关系，最大最小灰度级之比就是灰度级的个数，I是某个点的像素亮度：

$\frac{\Delta I}{I}=K$

$\frac{I_{\min}}{I_{\max}}=(1+K)^{255}$

20.Visibility enhancement

1.找到图中最大亮度

2.将亮度替换： $L_d=\frac{\log (L_w+1))}{\log(L_{max}+1)}\times 255$

21.直方图均衡化

将灰度值作为随机变量，则直方图表示了灰度值出现的概率密度。（横轴为灰度值，纵轴为出现的概率密度）

值为该灰度值出现的像素个数除以总的像素个数:

$p(x)=\frac{n_x}{\sum n_i}$

直方图均衡化就是找到映射T,s=T(r),计算映射后的第k个灰度级的值。

映射后的像素分布尽量均衡，就是概率密度恒为1。

两者在第k个灰度级时的概率是相同的，可以得到： $F(s_k)=F(r_k),P(x<s_k)=P(y<r_k)$

$\int\limits_{0}^{r_k}p(x)dx=\int\limits_{0}^{s_k}1dy$

$s_k=\frac{\sum\limits_{i=0}^{r_k}n_i}{n}$

实际操作：

第一行是序号k，第二行是第k个灰度值，第三行是第k个灰度值所占的像素个数

第四行是第k级灰度出现的概率密度： $P(r_k)=\frac{n_k}{n}$

第五行套用公式，将前面的概率全部加起来： $s_k=s_{k-1}+P(r_k)$

第六行将sk对应到具体的灰度值上

第七行重新计算相同灰度值的n

第八行再次计算概率密度

为什么没有实现真正的均衡化：计算出的sk不可能刚好等于8级灰阶中的某一阶，因此需要归结到相邻的灰度级中，这样不同灰度级处的概率密度可能不完全相同。

直方图变换。

有了上面的理论，可以将直方图变为任意函数，即找到映射r=G(z)：

1.首先将直方图均衡化： $s=T(r)=\int_{0}^rp(r)dr$

2.将目标密度函数直方图均衡化： $s'=G(z)=\int_{0}^zp(z)dz$

3.两者均衡化的结果应该相同，因此： $s=s',z=G^{-1}(s')=G(T(r))$

真正计算的时候是迭代出相差最小z和GT(r)即可，不是真的去解。

直方图均衡化

原图，亮度增，亮度减

以上2：原图，对比拉伸（灰度级被扩大）

原图，颜色量化

原图，灰度线性化（增），灰度线性化（减）1处像素越多越暗

22.几何变换

平移，旋转，缩放(scale)，错切，镜像

洞和插值：

图像大小改变后可能出现洞，比如旋转，错切和放大。

插值的方法可以有：

Row interpolation：按照行找洞，用同行的前一个填补

23.Morph

大小相同的图A,B做静态转化，将A逐渐变为B

原理：A中像素值逐渐变为B中同位置的像素值。

方法：根据变化的快慢设置步长，可以选择等比或者等差的方法。

比如第i步A中像素的值为： $I_i=I_A+\frac{I_B-I_A}{n}\cdot i$

彩色图像则是rgb分量分别变化，也可以考虑rgb的相对关系同时变化。

24.表情映射

给定同一个人的不同表情A,A'，给定第二个人的表情B

1.在A,B上标记面部特征点

2.通过 $v_b'=v_b+v_{a'}-v_a$ ，将B变形为Bg

3.通过图像变形使得A，A'，B对齐

4.计算表情比例图： $R=\frac{A'}{A}$

5.计算图B': $B'=R\cdot B_g$

25.卷积

学过概率的都知道，卷积可以看成x+y<z的分布函数。

真正计算h(x)和f(x)卷积的时候：

1.将h(t)变化为h(-t)

2.平移x得到h(x-t)

3.计算卷积： $g(x)=\frac1M\sum\limits_{t=0}^{M-1}f(t)h(x-t)$ ,M为定义域长度

卷积函数的有限区间：对称后h(t)在滑过的位置（描述很不清晰，两个函数的定义域相同，且从0开始）

到h滑到右边，不在和f重合时就停止。

图像中的卷积：

是以该点为中心，3*3中9个点的加权求和。

26.滤波

均值滤波：

求邻近像素点的均值(高斯滤波的特例)代替中心像素点

中值滤波：

求邻近像素点的中值替代中心像素点

非线性的滤波，优点是图像不会变得太模糊，

拉普拉斯滤波：

分为两种权重：

$\begin{bmatrix} 1&1 &1 \\ 1&-8 &1 \\ 1& 1 &1 \end{bmatrix}$ $\begin{bmatrix} 0 &1 & 0\\ 1 & -4& 1\\ 0&1 &0 \end{bmatrix}$

优点是：让图像更加清晰鲜明，

缺点是：增大了噪声

双边滤波：

图像有空间域和灰度域，计算权重时需要都考虑进去。

空间域中，离中心点越近，则权值越高

灰度域中，和中心点的像素越接近，则权值越高

$BF[I]_p=\frac{1}{W_p}\sum\limits_{q\in S}G_{\sigma_s}(||p-q||)G_{\sigma_r}(|I_p-I_q|)I_q$

p:中心像素位置

q:邻域像素位置

S:考虑的邻域

$\sigma_s$ :窗口的大小，被考虑的邻近点的最大距离

$\sigma_r$ :边缘幅度的范围

$W_p=\sum\limits_{q\in S}G_{\sigma_s}(||p-q||)G_{\sigma_r}(|I_p-I_q|)$ 归一化参数

Gs是空间权值，Gr是灰度值的权值

双边滤波加速：

略

Guided filter

双边滤波可以确保梯度差不变，可能会发生梯度逆转，因为算的是绝对值

Guidede滤波可以确保梯度差和梯度方向不变

27.傅里叶变换和FFT

对一个函数进行傅里叶展开，可以得到不同频率的三角函数的线性组合。

低频部分保留了图像的主要信息，高频部分是噪声。

将高频去掉，达到降噪的效果。

快速傅里叶变化：FFT

想计算第k项傅里叶系数，区间为0到N

如果将区间上的点分为奇偶分别计算。

1.假设 $N=2M$

2.将傅里叶变换拆为奇偶两部分，

$\small F(k)=\frac{1}{2M}\sum\limits_{n=0}^{2M-1}f(n)W^{2n,k}_{2M}=\frac{1}{2}[\frac{1}{M}\sum\limits_{n=0}^{M-1}f(2n)W^{2n,k}_{2M}+\frac{1}{M}\sum\limits_{n=0}^{M-1}f(2n+1)W^{2n+1,k}_{2M}]$

$\small W^{2n,k}_{2M}=e^{\frac{-j2\pi2nk}{2M}}=W_{M}^{n,k}$

$\small W^{2n+1,k}_{2M}=e^{\frac{-j2\pi(2n+1)k}{2M}}=W_{M}^{n,k}W_{2M}^{k}$

$\small F_e(k)=\frac{1}{2M}\sum\limits_{n=0}^{M-1}f(2n)W^{n,k}_{M}$ , $\small F_o(k)=\frac{1}{2M}\sum\limits_{n=0}^{M-1}f(2n+1)W^{n,k}_{M}$

得到了表达式， $\small F(k)=F_e(k)+F_o(k)W_{2M}^{k}$

而对于F(k+M)，待入上式可得：

$\small W_M^{n,k+M}=e^{\frac{-j2\pi n(k+M)}{M}}=W_{M}^{n,k}$

$\small W_{2M}^{n,k+M}=e^{\frac{-j2\pi n(k+M)}{2M}}=-W_{2M}^{k}$

再代入得到： $\small F(k+M)=F_e(k)-F_o(k)W_{2M}^{k}$

可以看出，F(k)和F(k+M)只是差了一个中间的符号，因此计算Fe和Fo就能同时得到Fk和F(k+M)

之后就可以用递归做了。

28.幅值和相位

相位可以还原图像的轮廓，幅值不行，因此相位更加重要。

29.Harris 角点探测

在平面中移动，梯度几乎无变化，在边上移动，梯度在沿着边的方向几乎无变化，在角上移动，梯度几乎在任何方向变化。

定义能量函数

$\small E(u,v)=\sum_{(x,y)\in W}[I(x+u,y+v)-I(x,y)]^2$

将E一阶展开可得:

$\small E=\sum (I_{x}u+I_yv)^2=\sum ([I_x,I_y]\begin{bmatrix} u\\v \end{bmatrix})^2=\sum [u,v]H\begin{bmatrix} u\\v \end{bmatrix}$

$\small H=\begin{bmatrix} I_x^2 &I_xI_y \\ I_yI_x & I_y^2 \end{bmatrix}$

不变性：对于灰度值不变，对于位移不变，对于旋转不变

对于尺度敏感

Harris-Laplace角点检测算法：

1.不同尺度下，构建每一个点的矩阵H:

$\small H=\begin{bmatrix} I_x^2 &I_xI_y \\ I_yI_x & I_y^2 \end{bmatrix}$

2.对比邻域找到局部特征值最大的点

3.选用拉普拉斯算子作用后值最大的尺度

30.SIFT特征

1.将图片分为4*4=16个子窗口

2.计算子窗口中每个像素的梯度和角度

$m(x,y)=\sqrt{[(L(x+1,y)-L(x-1,y)]^2+[L(x,y+1)-L(x,y-1)]^2}$

$\theta(x,y)=\alpha \tan(2\frac{L(x,y+1)-L(x,y-1)}{L(x+1,y)-L(x-1,y)})$

3.忽略梯度太小的点

4.建立统计直方图，投票出角度最多的作为主特征方向。

SIFT特征是128维的：16个子窗口，每个窗口有8个方向，因此有16*8=128维

旋转不变性：

1.主梯度方向选择：计算每个的像素的梯度方向，做统计直方图，投票出主梯度方向。

2.当图像旋转后，主梯度也跟着旋转，因此SIFT特征不变

尺度不变性：

将图片分割为16个子窗口，不考虑子窗口中的像素多少，因此是尺度不变的。

应用：

图像匹配：将之前的文件pdf图片和当前桌上的进行对比，找到特征对应的

优点：

1.具有旋转，尺度，亮度不变性

2.细节描述详细

3.刚性物体描述极佳

缺点

1.提取特征时间复杂度高

2.非刚性物体（人脸）表现不好

31.SURF

SURF和SIFT

1.SIFT是128维，SURF是64维

2.SIFR的特征：子窗口8个方向的直方图。SURF的特征：一阶导和梯度值幅值

3.SURF：使用Haar 小波确定特征方向,SIFT使用统计直方图

SURF比SIFT的优势：

图像有噪声时，SIFT直方图中有不同方向的投票，主方向投票减少。

但是SURF的特征不会改变

SURF寻角步骤

1.寻找关键点：

计算积分图，

进行二阶导滤镜，

构建不同的尺度，

找到不同尺度不同点的极大值，

二阶插值

2.确定主梯度方向

计算每个方向Harr小波特征

将Harr小波最大的方向作为主特征方向。

32.图像拼接

1.提取特征点

2.计算SIFT特征

3.匹配SIFT特征

4.计算变换矩阵

5.RANSAC增强变换

6.图像融合

RANSAC:

1.随机选取一些点

2.最小二乘法拟合这些点

3.计算未被选取的点到线的距离是否小于阈值，称为闭点

4.如果闭点足够多，则用闭点重新计算直线

5.重复3,4。当误差足够小时退出

34.卷积神经网络

反向传播训练CNN

1.随机初始化权值，计算输出hw(x)

2.计算误差 $E=(h_W(x)-y)^2$

3.更新权值

$W_k=W_{K-1}-\epsilon\frac{\partial E}{\partial W_k}$

CNN优点：

1.如果将所有像素都连接，将会导致参数太多。

2.由于图像有稀疏性，只需要关注局部特征，再将局部特征进行连接即可。图像稀疏性：图像的特征点是稀疏的

由于图像有相似性，不同局部特征的参数可以共享。图像相似性：不同位置的图像可能具有类似的特征

这样就大大减少了参数