数字图像处理
1、 数学相关领域知识
1.1 高等数学
1.1.1 傅里叶
1、图像处理之离散傅里叶变换(DFT)
2、傅里叶级数
设
f
(
x
)
f(x)
f(x)是周期为
2
π
2\pi
2π的周期函数,且能展开成三角级数
f
(
x
)
=
a
0
2
+
∑
n
=
1
∞
(
a
n
c
o
s
n
x
+
b
n
s
i
n
n
x
)
f(x)=\frac{a_{0}}{2}+\sum_{n=1}^{\infty }(\, a_{n}cos\, nx+b_{n}sin\, nx\, )
f(x)=2a0+∑n=1∞(ancosnx+bnsinnx)
a
0
=
1
π
∫
−
π
π
f
(
x
)
d
x
.
a_{0}=\frac{1}{\pi }\int_{-\pi }^{\pi }f\left ( x \right )dx.
a0=π1∫−ππf(x)dx.
a
n
=
1
π
∫
−
π
π
f
(
x
)
c
o
s
n
x
d
x
(
n
=
0
,
1
,
2
,
3
,
.
.
.
)
.
a_{n}=\frac{1}{\pi }\int_{-\pi}^{\pi}f(x)cos\: nxdx\: \: (n=0,1,2,3,...).
an=π1∫−ππf(x)cosnxdx(n=0,1,2,3,...).
b
n
=
1
π
∫
−
π
π
f
(
x
)
s
i
n
n
x
d
x
(
n
=
1
,
2
,
3
,
.
.
.
)
.
b_{n}=\frac{1}{\pi }\int_{-\pi}^{\pi}f(x)sin\: nxdx\: \: (n=1,2,3,...).
bn=π1∫−ππf(x)sinnxdx(n=1,2,3,...).
1.1.2 分布
1.1.3 泰勒
1.2 线性代数
1.2.1 矩阵分析
1、QR分解
[矩阵的QR分解系列一] 施密特(Schmidt)正交规范化
[矩阵的QR分解系列二] 吉文斯(Givens)变换
[矩阵的QR分解系列三] 豪斯霍尔德(Householder)变换
[矩阵的QR分解系列四] QR(正交三角)分解
[矩阵的QR分解系列五] Eigen中的QR分解
雅可比矩阵几何意义的直观解释及应用
雅可比矩阵和行列式(Jacobian)
1.3 概率论与统计
1.3.1 算法
1、L-M方法全称Levenberg-Marquardt方法
“补充算法流程”
2、图像领域算法
2.1 图像分类(识别)
LMS(Least mean square) 最小均方算法, J ( θ ) J(\theta ) J(θ)是损失函数
2.2 图像分割
opencv——KMeans函数可用于图像分割。
图像分割综述【深度学习方法】
传统的图像分割方法多是通过颜色、纹理等基本特征对图像进行分割。该类方法常见的有基于阈值、边缘、聚类、图论的分割。
图像分割技术从算法演进历程上,大体可划分为基于图论的方法、基于像素聚类的方法和基于深度语义的方法这三大类,在不同的时期涌现出了一批经典的分割算法。
1、基于图论的分割方法
分割的原则就是使划分后的子图在内部保持相似度最大,而子图之间的相似度保持最小。
基于图论的代表有NormalizedCut,GraphCut和GrabCut等方法。
基于聚类的分割方法
基于像素聚类的代表方法有K-means(K均值),谱聚类,Meanshift和SLIC等。
2.3 图像增强复原
2.4 图像形态学
图像解析力 MTF算法是分析镜头解像能力的算法,其全称是Modulation Transfer Function(调制传递函数)。SFR(spatial frequency response)表示空间频率响应,表示的也是相机的解像能力,在这个层面上,MTF与SFR是一样的意思。
【图像处理】SFR算法详解1
【图像处理】SFR算法详解2
点扩展函数PSF(Point Spread Function)、线扩展函数LSF(LineSpread Function)和边缘扩展函数ESF(Edge Spread Function)
ISP基本框架及算法介绍
opencv中,对于一张二值化的图像,后续处理方式有两种。第一种方式就是利用findContours、drawContours等函数进行轮廓分析(opencv以对轮廓的处理为主)。第二种方式就是计算连通域进行区域分析,计算连通域的函数有两个(一个是带统计信息,一个不带统计信息)。
2.5 图像特征匹配
SIFT特征点提取-尺度不变特征转换(Scale-invariant feature transform或SIFT)
SIFT算法详解
SIFT、SURF、ORB
3、数字图像处理-冈
3.1 空间坐标变换
计算机视觉:相机成像原理:世界坐标系、相机坐标系、图像坐标系、像素坐标系之间的转换
仿射变换一般形式:
[ x y 1 ] = [ v w 1 ] T = [ v w 1 ] [ t 11 t 12 0 t 21 t 22 0 t 31 t 32 1 ] \begin{bmatrix} x & y & 1 \end{bmatrix}=\begin{bmatrix} v & w & 1 \end{bmatrix}T=\begin{bmatrix} v & w & 1 \end{bmatrix}\begin{bmatrix} t_{11}& t_{12}& 0\\ t_{21}& t_{22}& 0\\ t_{31}& t_{32}& 1 \end{bmatrix} [xy1]=[vw1]T=[vw1] t11t21t31t12t22t32001
变换名称 | 仿射矩阵T | 坐标公式 |
---|---|---|
恒等变换 | [ 1 0 0 0 1 0 0 0 1 ] \begin{bmatrix} 1 & 0& 0\\ 0& 1&0 \\ 0& 0& 1 \end{bmatrix} 100010001 |
x
=
v
x=v
x=v y = w y=w y=w |
尺度变换 | [ c x 0 0 0 c y 0 0 0 1 ] \begin{bmatrix} c_{x}& 0 &0 \\ 0& c_{y}& 0\\ 0& 0& 1 \end{bmatrix} cx000cy0001 |
x
=
c
x
v
x=c_{x}v
x=cxv y = c y w y=c_{y}w y=cyw |
旋转变换 | [ c o s θ s i n θ 0 − s i n θ c o s θ 0 0 0 1 ] \begin{bmatrix} cos\theta & sin\theta &0 \\ -sin\theta& cos\theta& 0\\ 0 & 0& 1 \end{bmatrix} cosθ−sinθ0sinθcosθ0001 |
x
=
v
⋅
c
o
s
θ
−
w
⋅
s
i
n
θ
x=v\cdot cos\theta-w\cdot sin\theta
x=v⋅cosθ−w⋅sinθ y = v ⋅ s i n θ + w ⋅ c o s θ y=v\cdot sin\theta +w\cdot cos\theta y=v⋅sinθ+w⋅cosθ |
平移变换 | [ 1 0 0 0 1 0 t x t y 1 ] \begin{bmatrix} 1 & 0& 0\\ 0& 1& 0\\ t_{x}& t_{y}& 1 \end{bmatrix} 10tx01ty001 |
x
=
v
+
t
x
x=v+t_{x}
x=v+tx y = w + t y y=w+t_{y} y=w+ty |
给定图像中灰度级
z
k
z_{k}
zk出现的概率
p
(
z
k
)
p(z_{k})
p(zk)可估计为:
p
(
z
k
)
=
n
k
M
N
p(z_{k})=\frac{n_{k}}{MN}
p(zk)=MNnk
式中
n
k
n_{k}
nk是灰度
z
k
z_{k}
zk在图像中出现的次数,
M
N
MN
MN是像素总数。 平均灰度由下式给出:
m
=
∑
k
=
0
L
−
1
z
k
p
(
z
k
)
m=\sum_{k=0}^{L-1}z_{k}p(z_{k})
m=∑k=0L−1zkp(zk)
类似地,灰度的方差是
σ
2
=
∑
k
=
0
L
−
1
(
z
k
−
m
)
2
p
(
z
k
)
\sigma ^{2}=\sum_{k=0}^{L-1}(z_{k}-m)^{2}p(z_{k})
σ2=∑k=0L−1(zk−m)2p(zk)
方差是
z
z
z值关于均值的展开度的度量,因此它是图像对比度的有用度量。通常,随机变量
z
z
z关于均值的第
n
n
n阶矩定义为:
μ
n
(
z
)
=
∑
k
=
0
L
−
1
(
z
k
−
m
)
n
p
(
z
k
)
\mu _{n}(z)=\sum_{k=0}^{L-1}(z_{k}-m)^{n}p(z_{k})
μn(z)=∑k=0L−1(zk−m)np(zk)
基本灰度变换函数
图像增强常用的三类基本函数:
(1)线性函数(反转和恒等变换)
(2)对数函数(对数和反对数变换)
(3)幂律函数(n次幂和n次根变换)
图像相减经常用于增强图像之间的差别。
直方图处理(直方图是多种空间域处理技术的基础,直方图操作可用于图像处理)
直方图均衡化(同冈萨雷萨)
形态学处理–>膨胀、腐蚀、开操作和闭操作
形态学中最基本的操作是膨胀和腐蚀,他们能实现很多功能:例如消除噪声、分割出独立的图像元素以及在图像中连接相邻的元素等。
开操作:先腐蚀运算,再膨胀运算
闭操作:先膨胀运算,再腐蚀运算
图像处理流程 | 点云处理流程 | ||
---|---|---|---|
图像输入 | |||
预处理 | |||
特征提取 | |||
特征分类 | |||
匹配 | |||
完成识别 | |||
|
3.2 颜色模型
RGB、HSV、YUV相互转换
RGB颜色对照表
RGB颜色对照表(包括颜色、RGB各值和十六进制值)
3.3 图像复原与重建
3.3.1 噪声模型
1、高斯噪声
P
D
F
PDF
PDF
公式:
p
(
z
)
=
p(z)=
p(z)=
1
2
π
σ
e
−
(
z
−
z
‾
)
2
/
2
σ
2
\frac{1}{\sqrt{2\pi}\sigma}e^{-(z-\overline{z})^2/2\sigma^2}
2πσ1e−(z−z)2/2σ2
2、瑞利噪声
P
D
F
PDF
PDF
p
(
z
)
=
{
2
b
(
z
−
a
)
e
−
(
z
−
a
)
2
/
b
,
z
⩾
a
0
,
z
<
a
p(z)=\begin{cases} \frac{2}{b}(z-a)e^{-(z-a)^2/b}, \ \ z\geqslant a \\ 0, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ z<a\\ \end{cases}
p(z)={b2(z−a)e−(z−a)2/b, z⩾a0, z<a
概率密度的均值
z
‾
=
a
+
π
b
/
4
\overline{z}=a+\sqrt{\pi b/4}
z=a+πb/4, 方差
σ
2
=
b
(
4
−
π
)
4
\sigma^2=\frac{b(4-\pi)}{4}
σ2=4b(4−π).
3、爱尔兰(伽马)噪声
P
D
F
PDF
PDF
p
(
z
)
=
{
a
b
z
b
−
1
(
b
−
1
)
!
e
−
a
z
,
z
⩾
a
0
,
z
<
a
p(z)=\begin{cases} \frac{a^b z^{b-1}}{(b-1)!}e^{-az}, \ \ \ z\geqslant a \\ 0, \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ z<a\\ \end{cases}
p(z)={(b−1)!abzb−1e−az, z⩾a0, z<a
概率密度的均值
z
‾
=
b
a
\overline{z}=\frac{b}{a}
z=ab, 方差
σ
2
=
b
a
2
\sigma^2=\frac{b}{a^2}
σ2=a2b.
4、指数噪声
p
(
z
)
=
{
a
e
−
a
z
,
z
⩾
0
0
,
z
<
0
p(z)=\begin{cases} ae^{-az}, \ \ \ \ z\geqslant 0 \\ 0, \ \ \ \ \ \ \ \ z<0\\ \end{cases}
p(z)={ae−az, z⩾00, z<0
概率密度的均值
z
‾
=
1
a
\overline{z}=\frac{1}{a}
z=a1, 方差
σ
2
=
1
a
2
\sigma^2=\frac{1}{a^2}
σ2=a21.
5、均匀噪声
p
(
z
)
=
{
1
b
−
a
,
a
⩽
z
⩽
b
0
,其他
p(z)=\begin{cases} \frac{1}{b-a}, \ \ \ \ a\leqslant z \leqslant b \\ 0,其他\\ \end{cases}
p(z)={b−a1, a⩽z⩽b0,其他
概率密度的均值
z
‾
=
a
+
b
2
\overline{z}=\frac{a+b}{2}
z=2a+b, 方差
σ
2
=
(
b
−
a
)
2
12
\sigma^2=\frac{(b-a)^2}{12}
σ2=12(b−a)2.
6、脉冲(椒盐)噪声
p
(
z
)
=
{
P
a
,
z
=
a
P
b
,
z
=
b
1
−
P
a
−
P
b
,其他
p(z)=\begin{cases} P_a, \ \ \ \ z=a \\ P_b, \ \ \ \ z=b \\ 1-P_a-P_b,其他\\ \end{cases}
p(z)=⎩
⎨
⎧Pa, z=aPb, z=b1−Pa−Pb,其他
如果b>a,则灰度级b在图像中将显示为一个亮点;反之,灰度级a在图像中将显示为一个暗点。若
P
a
P_a
Pa或
P
b
P_b
Pb为零,则脉冲噪声称为单极脉冲。如果
P
a
P_a
Pa和
P
b
P_b
Pb两者均不可能为零,尤其是它们近似相等时,则脉冲噪声值将类似于在图像上随机分布的胡椒和盐粉微粒。由于这个原因,双极脉冲噪声也称为椒盐噪声。
RANSAC算法理解-Random Sample Consensus(随机抽样一致性)
9、CMOS图像传感器的原理与应用–from B站
10、ORB算法原理解读
11、
12、
13、
14、
X、 图像领域小概念(知识)
名称 | 解释 |
---|---|
色差(英语:Chromatic Aberration,简称CA) | 指光学上透镜无法将各种波长的色光都聚焦在同一点上的现象,色差是由于镜头散射现象而造成的,图像中的物体周围特别是高对比度的情况下可能出现模糊或明显的色彩边缘(红、绿、蓝、黄、紫、洋红)就称之为色差。 色差产生的原因:透镜对不同波长的色光有不同的折射率(色散现象),使用三棱镜可以得到最佳验证。 根据不同平面的波长色散,色差可以分为两种类型:纵向色差(称为“LoCA”) 和 横向色差。 |
果冻效应rolling shutter | |
色散(Dispersion) | |
颜色空间 | 三分钟带你快速学习RGB、HSV和HSL颜色空间。RGB 颜色空间适合于显示系统,却并不适合于图像处理。HSV颜色空间 表达彩色图像的方式由三个部分组成:Hue(色调、色相)、Saturation(饱和度、色彩纯净度)、Value(明度)。 RGB颜色空间更加面向于工业,而HSV更加面向于用户,大多数做图像识别这一块的都会运用HSV颜色空间,因为HSV颜色空间表达起来更加直观!HSL 和 HSV 比较类似,这里一起介绍。HSL 也有三个分量,hue(色相、色调)、saturation(饱和度)、lightness(亮度),取其首字母成为HSL。HSL颜色空间, HSL和 HSV 的区别就是最后一个分量不同,HSL 的是 light(亮度),HSV 的是 value(明度)。可以到这个 学习网页 尝试一下。提取白色物体时,使用HSL 更方便,因为 HSV 中的Hue里没有白色,白色需要由S和V共同决定(S=0, V=100)。而在HSL 中,白色仅由亮度L一个分量决定。所以检测白色时使用 HSL 颜色空间更准确。 |
对比度拉伸 | 对比度拉伸的原理简单来说就是把比较窄的灰度级范围,扩展到整个灰度范围上,让明暗更加分明。 对比度拉伸是图像增强的一种方法,也属于灰度变换操作。HSV 的对比度拉伸增强就是对 S 和 V 两个分量进行归一化(min-max normalize)即可,H 保持不变。 |
3A算法 | 3A算法—自动曝光(AE) 、3A算法—自动对焦(AF)、自动白平衡技术(AWB) |
pclk | 是控制像素输出的时钟,即pixel采样时钟,一个clk采集一个像素点 , 单位MHz。表示是每个单位时间内(每秒)采样的pixel数量。 |
H_Blank / V_Blank | **H_Blank:**是指行消隐或称水平消隐,如下帧结构示意图所示,假定曝光起始位置在图像的左上角,对于逐行曝光的 sensor 来说,曝光从第一个像素开始,依次曝光直至这行的最后一个像素曝光结束,这时曝光位置要从此行的尾部快速移动到下一行的头部,开始下一行的曝光,这段行与行之间的返回过程称为H_Blank。**V_Blank:**是指场消隐或称垂直消隐,如下帧结构示意图所示,假定曝光起始位置在图像的左上角,曝光完成一帧图像后,曝光位置要从图像的右下角返回左上角,开始新一帧的曝光,这一段时间间隔称为V_Blank。 |
ISP Tuning | |
颜色编码 | RGB 颜色编码: RGB 图像中,每个像素点都有红、绿、蓝三个原色,其中每种原色都占用 8 bit,也就是一个字节,那么一个像素点也就占用 24 bit,也就是三个字节。例如:一张 1280 * 720 大小的图片,就占用 1280 * 720 * 3 / 1024 / 1024 = 2.63 MB 存储空间。YUV 颜色编码: 采用的是 明亮度 和 色度 来指定像素的颜色。其中,Y 表示明亮度(Luminance、Luma),而 U 和 V 表示色度(Chrominance、Chroma)。而色度又定义了颜色的两个方面:色调和饱和度。和 RGB 表示图像类似,每个像素点都包含 Y、U、V 分量。但是它的 Y 和 UV 分量是可以分离的,如果没有 UV 分量一样可以显示完整的图像,只不过是黑白的。对于 YUV 图像来说,并不是每个像素点都需要包含了 Y、U、V 三个分量,根据不同的采样格式,可以每个 Y 分量都对应自己的 UV 分量,也可以几个 Y 分量共用 UV 分量。 补充: 对于图像显示器来说,它是通过 RGB 模型来显示图像的,而在传输图像数据时又是使用 YUV 模型,这是因为 YUV 模型可以节省带宽。因此就需要采集图像时将 RGB 模型转换到 YUV 模型,显示时再将 YUV 模型转换为 RGB 模型。 转换公式:YUV采样方式有三种:YUV 4:4:4 采样;YUV 4:2:2 采样;YUV 4:2:0 采样 |
Raw格式图像 | 这里要说明从RAW图到JEPG有一系列复杂的图像信号处理过程,称作ISP(Image Signal Processing) |
连通域 | 一般分为4邻域和8邻域。 连通区域(connected component):图像中具有相同的像素值且相邻的区域。连通区域分析一般是针对二值图像,将具有相同像素值且相邻的像素找出来并标记。 |
傅里叶变换 | 傅里叶分析之掐死教程(完整版) |
XX、 图像领域
1、工程师所需技能
X、观影小知识
试验表明,观看图像的最佳距离应当是画面高度的4倍至5倍,这时的总视角约为15度,在这种情况下,可以保证人眼不转动就能看到完整的画面。