opencv图像处理课堂笔记内容

9.8

黑白图像:通过模拟信号展现   0(黑)-255(白)

1080p:1080*1980,像素3个字节,计算:1080*1980*3/1024/1024=6MB

一个字节=8位

1000兆:位

storage:压缩占用空间小,使用时解码,霍夫曼编码

具生智能

可见光、不可见光、红外光线(人肉眼不可见,成像可见)

计算图像学(实拍)、计算图形学(电脑合成渲染)

GPT:Generative Pre-trained Transformer(预训练生成式转换器)。基于学习之后制造新数据

HVS:人眼视觉系统,例美颜

3D Display:人眼两只导致物体具有偏移

deblur有两种原因:

智能手机拍照的原理:

主要包括图像传感器捕捉光线、光学系统对光线进行聚焦和引导、图像处理芯片对原始数据进行优化、操作系统和相机应用提供用户界面、存储和分享功能。

9.14

图像由像素点构成的二维平面(像素之间互相依赖)

雪花图像原因是因为像素与像素间完全独立

视频:继承图像依赖关系同时增加了时间的前后关系,即空间依赖、时间依赖

流型:二维平面的一维曲线,降维

pixel:像素单位,像元

连续信号-数字信号:通过离散。自变量和因变量都是连续值-自变量和因变量都离散化,通过采样、量化

奈奎斯特采样定理采样频率要大于两倍的原有频率

值域离散仅代表量化标签,无物理意义

像素Resolution

平滑:多次测量取平均:方差

HSV:色彩空间模型,包括色调(Hue)、饱和度(Saturation)和明度(Value)

YCbCR:色彩空间模型,用于表示彩色图像的亮度和色度信息。Y是亮度,Cb蓝色色度分量Cr红色色度分量

DCT(离散余弦变换):将一个信号或图像从时间域或空间域转换为频域表示。分解为一组基函数的加权和,这些基函数是余弦函数。可以将其表示为一组频率成分的系数。

·傅里叶变换傅里叶级数、连续傅里叶变换  傅里叶级数:任何一个周期性的函数f(t)=一切正余弦函数的和(正交基)F[g*h]=Fg

将函数从时域转换到频域,分解信号的频谱成分,频域(频域是指描述信号在不同频率上的特性和成分的域。)、时域(指信号在时间轴上的表示和分析)、振幅:正弦波高低(频域中各个频率分量的幅度或大小。) 空域(指图像或二维信号在平面上的表示和分析)频率:描述胖瘦 相位:图像放置位置

欧拉公式:描述复数(a + bi, i^2 = -1)与三角函数之间的关系

图像滤波:对图像进行平滑或增强处理,常用于去除噪声或突出特定特征

9.15

极数:函数在某个点处的极限值

Image filtering:对图像进行滤波操作,改变图像的特定属性或增强图像的某些特征,f滤波I图像,对称,反面的反面在平移。

内积、正交:在向量空间中,一组基向量是正交的,即彼此之间垂直且长度为1

相关:衡量两个信号之间的相似程度或相关性

卷积sx:平滑滤波器。Box Filter加权平均平滑图像,去噪(关联性不强-高频),对称矩阵

平滑滤波器:所有权重之和为1,均为正数。

锐化滤波器用于增强图像的边缘和细节信息,常用于图像增强和边缘检测,feature求导,差分。垂直边缘,有正负的

索贝尔滤波器通过计算像素点的梯度来确定边界每一行都是差分,为了避免噪声影响采用平滑(中间列的权重较高)

判断权重高低的方法:1.最大似然视角(距离),离权重级别高的附近也给高权重2.内容相似的给高权重

线性卷积:卷积操作中使用线性函数(y=ax+b);1.逻辑性可读性2.效率

高斯函数:均值和标准差。描述了一个连续分布的概率密度函数。x待计算原素距离中心元素x的距离,越近值越大,越远值越小。伸展到无穷远=1,标准差为1

高斯滤波器:对于每个像素点(x, y),高斯滤波器将计算其邻域内的像素点与高斯核的乘积,并将所有乘积结果相加,最后再除以所有权值的总和,得到该像素点的新值。

用高斯函数对图像进行平滑处理,能够有效地去除噪声并保持图像细节。比box filter更好,能更好的保持住中间像素的圈子

9.21.2023

方向梯度:用于检测图像中的边缘和纹理方向信息的特征描述

可分离性:指卷积操作可以分解为多个独立的一维卷积操作,提高计算效率。高斯滤波

有效卷积:在进行卷积操作时,不会扩展输出图像的尺寸,保持输出图像与原图像大小一致。不外扩,图像与原图小(基数向下取整),图像和卷积大小不一致。如果需要和原图一致需要补0

相同卷积:补0即补边界,各补一半,常用于神经网络

完全卷积:对输入图像进行卷积操作,输出图像大小与输入图像一致,常用于图像分割等任务。补整个卷积核的大小

预定义卷积核显示垂直边界,完全由数据决定

卷积神经网络:一种深度学习模型,通过多层卷积和池化层提取图像特征,并用于图像分类、目标检测等任务。全局优化

线性滤波:基于线性函数进行滤波操作,对异常值敏感,常用于去噪任务。二瓣优化,对异常值极为敏感,关注噪声,1.平方和:加权平均会导致周围像素值变化过大2.中位数:鲁棒

非线性滤波器:基于非线性函数(即无法用线性表示)进行滤波操作,例如中值滤波器适用于去除椒盐噪声。

卷积的定义在离散信号处理中,卷积可以通过对两个序列(通常指信号)进行加权求和而生成第三个序列。将图像的每个元素与卷积核相乘再相加后得到结果后放在中间,线性移动一格

频域的卷积傅立叶变换=空域的乘积的傅立叶逆变换,傅立叶变换将信号从时域转换到频域进行卷积运算;

卷积是不可逆的,输入的矩阵和卷积核进行计算的到的输出矩阵是相对位置,降质之后具有噪声。傅立叶变化数值较小时,噪声➗较小数值=放大噪声

拉普拉斯卷积核一种常用的差分滤波器,可以用于边缘检测和图像锐化,计算二阶导

频补混别当频率信号超过采样频率一半时,会产生混叠现象,可通过低通滤波器避免混叠现象发生,即频率补偿,即采用低空滤波器-平滑滤波器

9.28

Canny边缘检测:

1.噪声抑制:对图像进行平滑处理,使用高斯滤波

2.计算梯度幅值与方向:对平滑后的图像使用梯度算子(如Sobel)计算每个像素处的梯度信息,包括梯度幅值和梯度方向。

3.非极大值抑制:在梯度方向上进行非极大值抑制,即对每个像素点,只保留具有最大梯度值的像素,而抑制其他像素点,以使得最终的边缘线条变得更细。

4.双阈值处理:根据两个设定的阈值,将像素点分为强边缘、弱边缘和非边缘三类。

强边缘:像素梯度值超过高阈值的像素点。

弱边缘:像素梯度值介于低阈值和高阈值之间的像素点。

非边缘:像素梯度值低于低阈值的像素点。

通常,高阈值被用于初步确定明显的边缘,而低阈值被用于连接弱边缘到强边缘的过程。

5.边缘连接:基于双阈值处理结果,通过连接弱边缘像素与强边缘像素,形成闭合的边缘线条。

边缘检测:求导和微分操作,以及使用高斯函数进行滤波。一维函数,找的又全又准

求导再微分,高斯做微分

去噪的目的是为了提取边界

双边滤波器是一种常用的去噪方法,它不仅考虑了像素之间的空间距离,还考虑了像素之间的灰度差异,通过加权平均来实现去噪效果。

得到梯度后需要设置门限(不是每一个值都是边界)

根据梯度值,可以设置一个门限值来判断哪些像素属于边界。超过门限值的像素被认为是边界,而低于门限值的像素被认为是背景。基于门限进行二分判断,定位到单像素的位置(亮度、颜色、纹理的差异)

低中高:语义任务的多少以及相关性

极大值抑制:

hight- level- knowledge:通过使用先验信息来指导边缘检测,提高结果的准确性和语义一致性。

差值线性加权

单像素精度:梯度模长-二维矢量怎么求浮点值:|AB| = √(a^2 + b^2)

Canny算子:

差分滤波器:

10.9.2023

作业知识点补充:

空域滤波与频域滤波:空域滤波直接对图像的像素值进行操作,主要关注局部像素间的关系;频率滤波通过将图像转换到频率域进行操作,主要关注图像中不同频率成分的影响。

DCT:离散余弦变换,将一个时域信号转换为频域。

10.19.2023

图像增强:

《空域滤波》

单像素增强,直方图体现information,调整曝光

亮度范围压缩就弱化图像对比度,拉伸增强图像对比度

Clipping:重点突出亮度形式

如何选择合适的亮度映射函数?(直方图均衡化)

  1. 掌握亮度分布-通过直方图对原始图像进行全局统计。
  2. 在直方图分析的基础上,根据图像的特点和需求来选择合适的亮度映射函数。
  3. 为了确保映射前后像素总数相等,选择的亮度映射函数应该是单调增函数。即,原始图像中较暗的像素在映射后仍然保持较暗,较亮的像素在映射后仍然保持较亮,这样可以保持图像的明暗关系

直方图规定化:

《频率滤波》

动态规划:分而治之

双线性关系:

双线性关系变成线性关系:两边同取对数导致相乘分量变为相加

图像增强:

  1. 直方图均衡化: 直方图均衡化是一种通过调整图像像素值分布来增强图像对比度的方法。它的基本思想是将原始图像的灰度级分布变得更加均匀,使得图像中的细节更加清晰可见。具体步骤如下:
  • 统计图像的灰度直方图,得到每个灰度级的像素数量。
  • 计算累积分布函数(CDF):将直方图归一化为概率密度函数,并计算累积分布函数。
  • 通过映射函数,将原始图像的每个像素值替换为经过均衡化后的像素值。
  • 得到均衡化后的图像,其灰度级分布更加均匀,对比度更好。

  1. 直方图规定化: 直方图规定化是一种根据指定的目标直方图来调整原始图像的灰度级分布的方法。它的目的是使原始图像的灰度级分布尽可能接近目标直方图,从而使两幅图像具有相似的灰度特性。具体步骤如下:
  • 统计原始图像和目标图像的灰度直方图。
  • 计算原始图像和目标图像的累积分布函数(CDF)。
  • 构建灰度映射函数,将原始图像的像素值映射到目标图像的像素值,使得原始图像的CDF尽可能接近目标图像的CDF。
  • 对原始图像进行像素值映射,得到规定化后的图像。

10.20.2023

拟合:是指通过调整模型参数使得模型能够对数据进行最佳匹配或预测

矢量:是具有大小和方向的量

张量:

标量:是只有大小而没有方向的量

题在于——数据+模型

欠拟合:假设的模型低于实际模型,即模型复杂度低,训练阶段都无法完成

过拟合:假设的模型高于实际模型,即模型复杂度较高,训练阶段完美匹配测试阶段急剧下降,数据过少基于简洁性原则进行模型选择的原则,挑选模型复杂度较低的那个

没有免费午餐定理:极限情况,没有一个模型总是比其他的要好

暴力美学:

正则化:制定规则防止过拟合的技术,也就是制定规则。减轻数据受限,避免过拟合,增加泛化能力。而线性函数是最简单的一类函数

构建机器学习算法:

奥卡姆剃刀原则是基于简洁性原则进行模型选择的原则,倾向于选择最简单的解释或模型。

神经网络:堆叠神经网络层,循序渐进

马尔科夫信源:

卷积神经网络:运算和卷积相同,相乘但是还需要+常数b。堆叠神经网络层,线性层和非线性激活层(分段函数)

10.26.2023

监督学习:

线性关系:y=ax+b;

低微空间是非线性的在高微空间可能是线性关系

全连接:稠密链接,卷积——激活——池化(特征降维;保持平移旋转不变性;特征不变性;掌握全局信息;下采样;能够降低模型复杂度,增加鲁棒性)

稀疏连接

权值共享:特征提取具有不变性不受位置影响

滤波器数量通常是2^n,而增加滤波器原因是提高多样化、特征性

怎么提取特征?

卷积补0操作

图像变小的方法:①池化(pooling)选取最大值/平均值②设置Stride=2,行减半列减半。目的是是滤波器能够较为全面看清图像

下采样:指通过减小特征图的尺寸来降低计算复杂度。

全连接里的拉直:将多维的特征图转换为一维的向量

反向传播

网络前向

网络反向是训练神经网络的一种方法,通过计算梯度并根据梯度更新网络参数。

二维卷积(2D)

三维卷积(3D):建立channel联系

Alexmax:由多个卷积层、池化层和全连接层组成。

编码:图像变小,通道变宽;解码:图像尺寸变大,通道变小

Softmax:一种常用的分类激活函数,它可以将模型的输出转化为表示概率分布的形式。

跨媒体:过提取特征并将其与文本描述进行对应,实现不同媒体之间的交叉传播和整合。

多任务:同时训练一个模型来完成多个相关任务,这些任务之间可以相互支持和促进。

随机梯度下降:通过每次随机选择一小批样本进行参数更新,从而加速训练过程。

Dropout:是一种正则化技术,通过随机丢弃一部分神经元的输出来减少模型的过拟合。

Res-Net深度残差网络,通过引入残差连接解决了深度神经网络训练中的梯度消失和梯度爆炸问题。

10.27.2023

梯度优化梯度方向=求导函数方向,将x往函数的反方向移动一步来减小f(x),实现梯度下降,泰勒公式,步长(学习率)-求导后的最小值

梯度上升是求导函数正方向

Traning:不降反升,欠拟合

TensorFlow知识点:

tf.constant(value, dtype=None, shape=None, name='Const'): 创建一个常量张量,可以指定值、数据类型、形状和名称。

tf.Variable(initial_value, dtype=None, name=None): 创建一个可变的张量,可以指定初始值、数据类型和名称。

tf.placeholder(dtype, shape=None, name=None): 创建一个占位符张量,用于在运行时传递输入数据。

tf.add(x, y, name=None): 对两个张量进行逐元素相加。

tf.subtract(x, y, name=None): 对两个张量进行逐元素相减。

tf.multiply(x, y, name=None): 对两个张量进行逐元素相乘。

tf.divide(x, y, name=None): 对两个张量进行逐元素相除。

tf.matmul(a, b, transpose_a=False, transpose_b=False, name=None): 计算两个张量的矩阵乘法。

tf.nn.relu(features, name=None): 应用修正线性单元(ReLU)激活函数,将小于零的值变为零。

tf.nn.softmax(logits, axis=None, name=None): 应用Softmax函数,将一组 logits 转换为概率分布。

tf.reduce_sum(input_tensor, axis=None, keepdims=False, name=None): 沿指定轴求张量的和。

tf.reduce_mean(input_tensor, axis=None, keepdims=False, name=None): 沿指定轴求张量的平均值。

tf.argmax(input, axis=None, name=None, output_type=tf.int64): 沿指定轴返回张量中最大值的索引。

tf.train.GradientDescentOptimizer(learning_rate=0.001): 创建一个梯度下降优化器,用于训练模型参数。

tf.train.AdamOptimizer(learning_rate=0.001): 创建一个Adam优化器,使用自适应学习率来训练模型参数。

11.2.2023

无监督学习:数据降维(减少特征性)、聚类(相关性)

数据降维pca、自编码器

图像聚类k-means、meanshift

主成分分析(PCA):原有变量之间存在较高的程度相关,相关就会耦合。将原始的高维数据通过线性变换投影到低维空间,使得投影后的数据具有最大的方差。方差的模长相乘,1是正相关,-1呈现负相关。旋转坐标系,降低线性关系。对于非线性变化无法处理

零均值通常指的是在一组数据中,所有数据的平均值为0。这个概念在统计学和机器学习中都非常重要,因为很多算法假定数据具有零均值,例如主成分分析(PCA)和高斯混合模型(GMM)。

主对角线(也称为主轴)是指矩阵中从左上到右下的一条对角线,包含矩阵的所有主要元素。在对称矩阵中,主对角线上的每个元素都等于该元素所在行和列的平均值。

副对角线是指从右上到左下的一条对角线,与主对角线相交于矩阵的中心点。在对称矩阵中,副对角线上的每个元素都等于该元素所在行和列的平均值。

协方差是描述两个变量之间关系的一种度量,通常用于衡量不同变量之间的相关性。协方差矩阵是一个对称矩阵,其中每个元素表示两个变量之间的协方差。对于具有n个特征的数据集,协方差矩阵是n×n的矩阵。协方差矩阵的对角线上包含了各个特征的方差,而主对角线以下区域包含了特征之间的协方差。

超级像素:内容相近,距离很近

  1. means:缺点在于无法确认中心点
  1. 随机选择K个中心点作为初始聚类中心。
  2. 将每个数据点分配给距离它最近的聚类中心。
  3. 计算每个簇的中心,即该簇中所有数据点的平均值。
  4. 将每个聚类中心移动到其所包含的数据点的平均值处。
  5. 重复步骤2-4,直到满足停止条件(例如收敛或达到最大迭代次数)为止。

KNN:

均值漂移:

图像聚类:需要设置两个k的高斯函数相乘,分别代表颜色和距离。实现初步的图像分割

自编码器:编码器(降维,实现数据压缩)、解码器(从x维度转换为原维度),二者互为逆运算。解码器作用是检验编码器的降维效果,用于模型训练中。自监督。如何设置编码器?反向传播进行参数更新,神经网络,最小化重构误差进行参数更新

降噪自编码器:

11.9.2023

OCR技术:

REID:行人检测

Transform:跨媒体使多个学科进行连接,实现人工智能+。利用跨媒体信息(如文本、图像、视频等)的互相关联与融合,来实现更加综合全面的人工智能应用。

具身智能:mbodied Intelligence,强调智能体通过感知和行动与环境进行交互学习的能力。具身智能要求智能体具备忧患意识(anticipation)和终生学习(lifelong learning)的能力,以适应复杂多变的环境。

忧患意识,终生学习

深度传感器:构建三维环境模型、姿态估计、物体识别等领域。

二维转换成3D:深度图

人工智能发展趋势:数据+知识rules,当知识足够时可以降低数据的数量。联结主义和数据主义

深度问题转换成求视差:将图像中的深度信息转化为视差信息。视差是指在双目或多目摄像头中,同一物体在不同视角下的位置差异。深度和视差成反比。

基线校正-寻找像素对应关系(在同一行上寻找)-求得深度(越亮物理距离越前)但仍旧归一化0-255之间

11.10.2023

立体相机:两个相机模仿眼睛

视差具有方向

11.16.2023

Optical flow:图像中相邻帧之间的像素位移情况。光流可以用于分析物体的运动轨迹和速度。

外极线几何:像素与像素之间的对应的关系只需要在外极线上寻找;需要在二维的基础上寻找。双目或多目相机系统中,通过外极线来描述不同视图之间的像素对应关系,以便进行立体视觉的分析和重建。

基线校正:在双目立体视觉中,每个像素在两个不同视图中都有对应的像素位置,而这些对应关系可以通过外极线来表示。外极线是连接两个相机中光心与像素点的直线,对于一个像素在一幅图像中的位置,它的对应点必须在另一幅图像的外极线上。以提高立体匹配和深度估计的精度。

视差估计——①基于窗口来代替找相对位置:指在图像处理中,通过滑动窗口的方式来寻找目标或进行周围特征匹配,以获取目标的相对位置信息。由于全局设置导致图像亮度的变化,基于线性相关性处理解决此问题

视差估计——②SSD平方误差和,用于比较两个图像块之间的相似度。通过计算两个图像块像素值之间的差的平方和来衡量它们之间的相似度。

Normalizaed correlation

MAD\SAD:计算图像或视频中相邻帧之间的差异度量指标。

MAD:平均绝对差,两个相同尺寸的窗口中,对应像素位置上的灰度值差的绝对值进行求和,再除以窗口内像素数量,得到平均差异值。MAD越大,表示相邻帧之间的差异越大。

SAD:绝对误差和,两个相同尺寸的窗口中,直接对绝对差值进行求和,不再取平均。SAD越大,表示相邻帧之间的总差异越大。

选取窗口的大小:

大窗口——优点:1.有可能包含更多标志信息2.抑制噪声3.平滑度更好使深度图像更具连续性和稳定性 缺点:1.计算复杂度提高2.背景信息过多,造成结果误差3.违反了像素相似性具有一致视差,要保证中心像素是

小窗口——优点:1.更高的视差精度缺点:易受到噪声影响 缺点:缺少特征信息

一致性深度条件:同一场景中对应的像素点的视差值应该保持一致。

满足一致性深度条件:中心像素不匹配

①窗口足够大

  1. 在视差图中滑动窗口,分别计算窗口内所有像素的平均视差值。
  2. 对于每个像素,计算它与其相邻像素的视差值之差的绝对值,并与一个预设的阈值进行比较。
  3. 如果像素的视差值与相邻像素的视差值之差的绝对值大于阈值,则认为该像素不满足一致性深度条件。

②对于不满足一致性深度条件的像素丢弃(软筛选——概率丢弃)

如果不满足一致性深度条件的像素数量很少,可以直接丢弃这些像素。如果像素数量较多,可以考虑对这些像素进行分类权重处理,通过一些图像处理算法对它们进行缺失值填充或者重构。类似于加权平均

左右图片亮度差异:1.线性关系相关性,皮尔逊相关系数计算两张图片的线性关系相关性。2.系数差,使用均值绝对误差(Mean Absolute Error,MAE)或均方误差(Mean Squared Error,MSE)计算两张图片的像素值差异。3.NCC:归一化互相关系数(Normalized Cross Correlation,NCC):计算两张图片的互相关系数,可以考虑不同图像之间的亮度差异。

使用窗口优化方法得到的结果导致全图具有割裂和平滑问题独立优化。而导致平滑,由于不考虑像素与像素的视差估计,忽视鲜艳。

为了解决这个问题,可以考虑使用全局优化方法——基于图割:可以利用像素之间的相互作用来提高视差估计的准确性,并且能够更好地保留图像的细节和鲜艳度。

Window-based optimization:窗口优化方法-添加平滑(依据颜色和位置)

步骤:

1.图像划分:将待处理的图像划分为多个重叠的窗口。每个窗口包含一组像素。

2.匹配代价计算:对于每个窗口,计算其与参考窗口(通常是左侧窗口)中对应位置的 像素之间的匹配代价。匹配代价可以使用各种度量方式计算,例如灰度差异、相关性等。

3.视差优化:对于每个窗口,根据匹配代价,选择最佳的视差值作为该窗口内所有像素 的视差值。常见的优化方法包括最小二乘法(Least Squares)、动态规划等。

4.视差填充:通过插值或其他方法,将每个窗口内部的像素的视差值扩展到整个窗口。

局限性:

1.割裂问题:由于窗口之间相互独立进行视差估计,容易产生割裂(discontinuity)现象,即在窗口边界处出现视差不连续的情况。

2.平滑问题:窗口优化方法倾向于产生平滑的视差图像,可能导致细节丢失或模糊。

3.窗口大小选择:窗口大小的选择会影响视差估计的精度和平滑性,需要根据具体应用场景进行调整。

动态规划:线与线的关系,像素匹配关系的从点点转变到线线对应关系

图像是二维的,将线的关系独立匹配违反二维结构的垂直平滑度缺失

图割:目标是找左右图像点的对应关系,任意的一个点做中心,左图像的视差图-参考图像,右边为目标图像

图割优化函数构建:(视差匹配、深度问题、图像分类

1.窗口基准相似度度量: 对于每个像素点,将其作为中心点,以窗口为基准,在左图像视差图(disparity map)上对应的位置与参考图像中的像素进行相似度度量。可以使用相似度度量方法如SSD或归一化互相关来计算窗口内像素之间的相似度。

2.临近相似关系建模: 为了建模相邻像素之间的相似关系,可以引入临近像素之间的一致性约束。对于每个像素,将其与周围的邻居像素进行相似度度量,并添加到优化函数中。这样可以鼓励相邻像素具有一致的视差值,从而提高匹配的准确性。

3.变量分离性: 为了增强变量之间的分离性,可以引入额外的约束条件。例如,可以设置平滑性约束,使得相邻像素的视差值之间的差异尽可能小。通过将相邻像素之间的差异添加到优化函数中,可以在求解最优解时促使变量之间具有较大的差异。

4.设置限制: 为了满足特定要求,可以设置一些限制条件。例如,可以设置视差值的范围限制,确保得到的视差值在可接受的范围内。此外,可以调整平滑性项的权重,以控制平滑度和边缘保持的平衡。

深度图/视差图:用于表示场景中物体相对距离关系的图像。只考虑位置不考虑距离

Odering constain根据两个像素在场景中的空间位置进行比较,判断它们在深度图/视差图中的深度关系。约束条件=如果两个像素在同一水平线上,但是一个在另一个的左侧,则它们在深度图/视差图中的深度关系应该保持一致;如果两个像素在同一竖直线上,但是一个在另一个的上方,则它们在深度图/视差图中的深度关系也应该保持一致。

软约束:1.视差梯度约束:利用了图像中物体边界的梯度信息来限制匹配点的视差变化。2.排序约束:用于指定变量或数据的排列顺序。

Edata是windowbase,Esmooth是将所有像素(临近像素的)

11.23.2023

双标签优化:将视差估计问题转化为图的割问题,并通过最大割或最小割求解来优化能量函数。首先,为所有像素赋予一个随机视差值(通常为视差的最小值)。然后,通过割断连接线来改变像素的视差值。如果割断了连接线,该像素的视差值将被设为一个较大的值(称为阿尔法),以提高平滑性。相反,如果连接线保持完整,像素的视差值将保持不变,以保持一致性。通过迭代调整连接线来寻找能量函数的极小值。在每次迭代中,优化算法会根据能量函数的导数(梯度)来确定哪些连接线应该被割断,以及哪些连接线应该保持完整。通过不断地迭代,算法会逐渐收敛到能量函数的极小值,并得到最佳的视差估计结果。

关于如何进行割,可以使用运筹学中的最大割或最小割求解算法。最大割算法旨在找到将图划分为两个子图,使得连接两个子图的边的权重之和最大。而最小割算法则是寻找将图划分为两个子图,使得割断的边的权重之和最小。

高等数学知识点

线性代数:矩阵和向量运算在机器学习和图像处理中广泛使用。掌握矩阵的基本操作,如加法、减法、乘法、转置、逆等。了解特征值和特征向量、奇异值分解、正交化等概念。

矩阵加减法:对应元素相加减

两个矩阵相乘:C = AB,其中C的第i行第j列元素等于A的第i行与B的第j列的内积。

矩阵与向量相乘:y = Ax,其中y是结果向量,A的每一行与x的内积得到y的对应元素。

矩阵置换:行变列,列变行。

逆矩阵:对于一个可逆矩阵A,存在一个逆矩阵A^(-1),使得AA^(-1) = A^(-1)A = I,其中I是单位矩阵。

特征值和特征向量:对于一个n×n矩阵A,如果存在实数λ和非零向量v,使得Av = λv,则λ是A的特征值,v是对应的特征向量。

奇异值分解(SVD):对于一个m×n矩阵A,存在奇异值分解 A = UΣV^T,其中U是m×m正交矩阵,Σ是m×n的对角矩阵,V是n×n正交矩阵。

正交化:对于一组向量,通过正交化可以得到一组相互垂直的向量。常用的正交化方法有Gram-Schmidt正交化和QR分解。

线性组合:将一些向量(或者标量)按照给定的系数进行加权求和的操作。

微积分:微积分是机器学习和图像处理中必不可少的数学基础。掌握导数和积分的基本概念和运算法则。了解多元函数的偏导数和梯度、拉格朗日乘子法等。

概率论与统计学:概率论和统计学是机器学习和图像处理中非常重要的数学分支。掌握概率密度函数、条件概率、贝叶斯定理、最大似然估计、假设检验等概念和方法。

优化理论:优化理论是机器学习和图像处理中常用的数学方法。掌握线性规划、非线性规划、梯度下降、牛顿法、共轭梯度等优化算法。

傅里叶分析:傅里叶分析在图像处理和信号处理中广泛应用。了解傅里叶变换、傅里叶系数、频域滤波等概念和方法。

离散数学:离散数学是机器学习和图像处理中常用的数学分支。掌握离散数学的基本概念和方法,如图论、组合数学、离散优化等。

数值计算:数值计算是机器学习和图像处理中常用的数学方法。掌握数值积分、数值微分、插值和拟合等基本方法。

复杂度理论:复杂度理论是机器学习和图像处理中常用的数学工具。了解时间复杂度、空间复杂度、NP完全性等概念和方法。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值