【计算机视觉】完整版复习

计算机标定

齐次坐标

齐次坐标,将欧氏空间的无穷远点,与投影空间中有实际意义的消失点,建立起映射关系

把齐次坐标转化为笛卡尔坐标的方法:是前面n-1个坐标分量分别除以最后一个分量即可

image-20221204123738060

一些解释和性质:

image-20221204123928555

img

比较好的理解:

表达一个点比一个向量需要额外的信息。如果我写出一个代数分量表达(1, 4, 7),谁知道它是个向量还是个点!

如果用齐次坐标————上面的(1, 4, 7)如果写成(1,4,7,0),它就是个向量;如果是(1,4,7,1),它就是个点。因此可以用齐次坐标很好的将向量和点统一起来表示。

详见:https://blog.csdn.net/wonengguwozai/article/details/126123349

线性变换

线性变换包括:欧式变换Euclidean、仿射变换affine和透视变换projective。

欧式变换Euclidean

欧式变换保持了长度和角度平移旋转是欧式变换。也叫刚体变换。

平移

将一个点从一个位置转换到另一个位置

image-20221204144606996

其中:

image-20221204144503649

推广到三维:

旋转

image-20221204160006245

推广到三维:

image-20221204160039937

仿射变换affine

仿射变换保持了长度和角度比值,仿射变换的例子是剪切缩放

缩放

image-20221204160230100

剪切

image-20221204160252458

透视变换projective

透视变换可以来实现有限范围的点变换为无穷远点,将图像投影到一个新的视平面(也叫投影变换)

image-20221204160551432

图像成像

针孔透视

针孔模型中,光线通过一个无限小的孔,并且在成像平面上呈现出倒像。

**透视投影:**将三维物体的信息映射到二维平面上。

image-20221204161745792

弱透视

弱透视投影:平面中的所有线段都以相同的放大倍数进行投影。

相机事实上成像在后面,然后取倒像

image-20221204161841404

摄像机镜头

Snell定律

image-20221204162230448

薄透镜

image-20221204162328694

厚透镜

image-20221204162344794

z是镜到cmos的距离,Z是物体到镜的距离

相机的视野

相机的视野:即实际投影到相机视网膜上的景物部分,不仅由焦距定义,还取决于视网膜的有效面积(例如,相机中可曝光的胶片面积,或数码相机中的传感器面积)。

球形像差

简单地说:就是大光圈进光亮大造成虚化。

标准答案:

球形像差,顾名思义是由于透镜的球形表面造成的像差。实际上,球面镜不能将所有光线聚焦在同一点,透过镜片边缘进入的光线会偏离焦点形成像差。尤其在大光圈的时候,有较多光线可以通过镜片。最明显就是一些光点会虚化成一团光,这是由于边缘位置进入的光线与中心聚焦的偏差较大所致。

色差

不同波长(颜色)的光线由于折射系数的差异(色散),在通过透镜时将发生不同程度的折射然后与光轴相交于不同的位置,并在同一图像平面上形成不同的模糊圈(横向色差)。

摄像机的几何标定

内参矩阵

在u和v方向上分辨率分别为mu和mv,tu和tv是平移量。

image-20221204163348061

外参矩阵

相机的投影中心不在(0,0,0),主轴不在Z轴上,图像平面虽然仍然与主轴正交,但也不平行于XY平面。

设这个平移矩阵为T(Tx, Ty, Tz)。让主轴与Z轴重合的旋转矩阵由3×3旋转矩阵R给出,子矩阵(RT是平移矩阵)相乘得到3×4变换矩阵。

image-20221204164900311

E被称为外参矩阵

相机标定矩阵

image-20221204165051674

张正友标定法

image-20221204170055552

1.求解内参矩阵和外参矩阵的积H

image-20221204171818688

image-20221204170443815

当一张图片上的标定板角点数量等于4时,即可求得该图片对应的矩阵H 。当一张图片上的标定板角点数量大于4时,利用最小二乘法回归最佳的矩阵H 。

最小二乘法:简单地说就是通过n组X(u,v)和Y(U,V),求解八个参数。

https://blog.csdn.net/W1995S/article/details/118153146

2.求解内参矩阵

image-20221204175704911

image-20221204175733225

3.求解外参矩阵

image-20221204175824030

4、标定相机的畸变参数

image-20221204181321248

r为图像像素点到图像中心点的距离,即 image-20221204181517165

在这里,x->u y->v

image-20221204181808329

图像形成与颜色

光照及阴影

辐射度学

image-20221204185226005

颜色

颜色信息反映了入射光的能量分布与波长,可见光的波长在400nm760nm之间。

RGB

RGB分别代表三个基色(R-红色、G-绿色、B-蓝色),如(0,0,0)表示黑色、(255, 255, 255)表示白色。其中255表示色彩空间被量化成255个数,最高亮度值为255(255 = 2^8 - 1,即每个色彩通道用8位表示)。

CMYK

CMY是色料三原色,分别是青(Cyan)、品红(Magenta)、黄(Yellow),再增加一个独立的黑色(K)

RGB 转换至CMYK

image-20221204184415977

CMYK 转换至 RGB

image-20221204184449057

Lab

Lab是基于人对颜色的感觉来设计的,更具体地说,它是感知均匀(perceptual uniform)的,如果数字(L、a、b这三个数)变化的幅度一样,那么它给人带来视觉上的变化幅度也差不多。

HSI

色调H(Hue):与光波的频率有关,它表示人的感官对不同颜色的感受,如红色、绿色、蓝色等。

饱和度S(Saturation):表示颜色的纯度,纯光谱色是完全饱和的,加入白光会稀释饱和度。饱和度越大,颜色看起来就会越鲜艳,反之亦然。

亮度I(Intensity):对应成像亮度和图像灰度,是颜色的明亮程度。

RGB转HSI:

image-20221204184713427

HSI转RGB:

image-20221204184757850

HSV

H (Hue)色相:取值范围 [0, 360]

S (Saturation)饱和度,即色彩纯净度,0饱和度为白色;取值范围:[0, 1]

V (Value):明度,0明度为纯黑色;取值范围:[0, 1]

HSV转换至RGB:

image-20221204184857163

RGB转换至HSV

image-20221204184905318

色彩还原

全世界目前主流使用8位每通道SRGB色彩描述体系来记录我们的颜色信息,8位的灰阶256非常有限。人眼的特点是对暗部更为敏感。如果用256灰阶直

接记录物理渐变的话,那么暗部只有56个灰阶,暗部就会出现巨大的色阶断层。如果我们做一次非线性映射,也就是Gamma矫正。把0.218的光信号提到中间。那么亮部和暗部各会分配到128个色阶。

光度处理

直方图处理

image-20221204185100718

手工实现直方图均衡化
了解直方图均衡化的原理之后,我们以一个简单的例子来手工计算均衡化后的图像。这里我们假设存在以下这张图像(假定图像的灰度级范围是 [0, 9]):

img
计算过程如下:

image-20221204192832794

image-20221204192902240

原文链接:https://blog.csdn.net/qq_15971883/article/details/88699218

图像融合

直接剪切粘贴技术(cut-and-paste)

ps抠图

Alpha融合

实现平滑过渡的更好方法是在图像中央选择一个宽度w,并使alpha掩模在这w个像素上从0平滑过渡到1,这个过程被称为羽化,能够实现更平滑的混合。线性减小或增大的混合函数会导致梯度不连续,从平滑区域过渡到线性区域时产生被称为马赫带的可见噪声。

拉普拉斯金字塔

综合考虑混合函数对特征大小和平滑度的约束,混合图像的理想方法是

分辨率混合。可以用拉普拉斯金字塔进行这种多分辨率分解,其中金字塔的每一层提供不同的分辨率,而组合所有层能恢复原图像

全景图像生成

两个相邻图像的区域进行混合

光度立体视觉

光度立体法的用途是可以重建出物体表面的法向量,以及物体不同表面点的反射率,最关键的是它不像传统的几何重建(例如立体匹配)方法那样需要去考虑图像的匹配问题,因为所需要做的只是采集三张以上,由不同方向的光照射物体的图像。这个过程中,物体和相机都不动,因此图像天然就是对齐的,这使得整个过程非常的简洁。

图像预处理

线性滤波与卷积

线性滤波

线性滤波使用的加权模式通常称为滤波的核,使用滤波的过程称为卷积

卷积

image-20221204195742923

对称性高斯模型

处理模糊问题的较好模型是对称性高斯模型

image-20221205002854716

●如果高斯分布的标准差很小(甚至小于一个像素)平滑效果将会很差,因为偏离中心的所有像素的

权重都非常小。

●如果是一个大一些的标准差,相邻的像素在加权平均过程中将有大一些的权重,意味着平均的结果将偏向多数相邻点的共识,这样能够得到一个像素值的较好估计,噪声随着平滑也将大大降低,但代价是图像会有些模糊。

●最后,一个具有很大标准差的核将导致图像细节随同噪声一同消失。

非线性滤波示例

噪声是散粒噪声(或椒盐噪声),而不是高斯噪声,即图像偶尔会出现很大的值。这种情况下,用高斯滤波器对图像进行模糊,噪声像素是不会被去除的,它们只是转换为更柔和但仍然可见的散粒(图f)。使用中值滤波器是一个较好的选择。中值滤波器选择邻域像素的中值作为输出。

由于中值滤波只选一个像素作为输出像素,所以一般很难有效去除规则的高斯噪声。这时采用α﹣截尾均值滤波会得到更好的效果。α﹣截尾均值滤波是指去掉百分率为α的最小值和最大值后剩下的像素的均值。

双边滤波:

image-20221205004435623

形态学算子

image-20221205004601242

边缘检测

检测器

基于梯度的检测器——Sobel算子

我们将梯度计算表示成或者滤波器的形式。当图像与这样的滤波器卷积时,我们就能得到两幅梯度图像,一个对应x方向,另一个对应y方向。计算出梯度后,如果某个像素处的边缘强度超过一定的值,我们就将该像素检测为边缘子,该选定的值称为阈值,是边缘子检测过程的一个参数。这种通过选择阈值生成二值图像的过程称为阈值化(Thresholding)。阈值化后,除了生成二值图像,我们也可以生成灰度图,其中边缘根据其方向或者强度使用不同的灰度值表示。此时,灰度值将会编码θ或者||∇f||信息。

image-20221205121217547

image-20221205121159627

因为它具有减少高频泄漏的特性。边缘算子之后被应

用于平滑后的图像来实现边缘检测

image-20221205123130863

基于曲率的检测器

拉普拉斯算子

image-20221205133300642

Canny检测器

image-20221205140059925

详见:https://blog.csdn.net/weixin_51571728/article/details/121452303

边缘子聚合

用于检测参数化对象

傅里叶变换

image-20221205142045230

image-20221205150242316

image-20221205145732472

通过傅里叶变换方法求图像卷积

特征与分类器

查找角点

Harris角点检测的基本思想:算法基本思想是使用一个固定窗口在图像上进行任意方向上的滑动,比较滑动前与滑动后两种情况,窗口中的像素灰度变化程度,如果存在任意方向上的滑动,都有着较大灰度变化,那么我们可以认为该窗口中存在角点。

image-20221205221508548

image-20221205221547167

image-20221205221951432

分类器模式

决策树

image-20221206083311368

image-20221206085006585

image-20221206085020252

image-20221206085034100

image-20221206085120115

支持向量机

基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。

image-20221206153545436

image-20221206153602488

image-20221206153618941

详见:https://blog.csdn.net/qq_42192693/article/details/121164645

https://zhuanlan.zhihu.com/p/270298485

考到就去世吧。。。

贝叶斯分类器

image-20221206161933168

image-20221206161950865

image-20221206173925709

集成学习

image-20221206163627378

太多了,自己查吧,毁灭吧。。。

基础神经网络

神经元和多层感知机

image-20221206224559796

image-20221206224632866

image-20221206225218262

image-20221206231533757

image-20221206232233367

image-20221206232242197

误差反向传播算法

image-20221206232750410

例题:https://blog.csdn.net/qq_39276337/article/details/120414795

本质上是链式求导法则

image-20221207011327521

image-20221207011010826

image-20221207010925957

image-20221207011528092

image-20221207011538112

卷积神经网络

有可能考到的关键问题:

1.简述卷积神经网络的结构:

卷积神经网络是一种前馈神经网络,由一个或多个卷积层和顶端的全连通层组成,同时也包括关联权重和池化层。

卷积层可以产生一组平行的特征图,功能是对输入数据进行特征提取。它通过在输入图像上滑动不同的卷积核并执行一定的运算而组成。此外,在每一个滑动的位置上,卷积核与输入图像之间会执行一个元素对应乘积并求和的运算以将感受野内的信息投影到特征图中的一个元素。

卷积层中包含激励函数以协助表达复杂特征。

池化层(pooling layer)

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤,它实际上是一种非线性形式的降采样。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制。

完全连接层

最后,在经过几个卷积和最大池化层之后,神经网络中的高级推理通过完全连接层来完成。就和常规的非卷积人工神经网络中一样,完全连接层中的神经元与前一层中的所有激活都有联系。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号。

输出层

卷积神经网络中输出层的上游通常是全连接层,因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题,输出层使用逻辑函数或归一化指数函数输出分类标签。

image-20221207141710338

image-20221207130514833

预处理步骤包括以下内容:

image-20221207130912085

局部对比归一化,PCA白化

卷积层:

image-20221207133152914

image-20221207133345648

image-20221207133435354

具体描述:

image-20221207134245980

image-20221207134539733

image-20221207134555130

image-20221207134745852

image-20221207134817911

池化:

image-20221207141539306

image-20221207134905788

image-20221207134931215

**空间金字塔池化层(SSP)**背后的灵感是令人关注的判别特征可以在各种尺度的卷积特征图中出现。因此,将此信息合并用于分类是有用的。

image-20221207135100247

image-20221207140629205

image-20221207140652325

损失函数

image-20221207141055957

image-20221207141105306

image-20221207141114554

图像分类与目标检测

图像分类

ImageNet 是一个计算机视觉系统识别项目,是目前世界上最大的图像识别数据库。此项目由斯坦福大学李飞飞教授于 2009 年发起。

用CNN进行图像分类最早可以追溯到LeNet,后续发展包括AlexNet、GoogLeNet、VGG、ResNet、ResNeXt和SENet。

目标检测与定位

image-20221207145322263

基于锚点框的目标检测方法为空间每一个位置设定多个矩形框,以便尽可能地覆盖图像中存在的所有物体。基于锚点框的目标检测可以分为两类:两阶段目标检测方法和单阶段目标检测方法。

两阶段方法:首先提取 k 个类别未知的候选检测窗口,然后进一步对这些候选检测窗口进行分类和回归,生成最终的检测结果。

与两阶段方法不同,单阶段方法直接对锚点框进行分类和回归。一般而言,两阶段方法具有较高的检测精度,而单阶段方法具有较快的推理速度。

来不及复习了。。这一章算了

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

半山乱步

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值