【计算机视觉】完整版复习

最新推荐文章于 2023-02-13 17:23:08 发布

半山乱步

最新推荐文章于 2023-02-13 17:23:08 发布

阅读量1.3k

点赞数 4

分类专栏：计算机视觉文章标签：神经网络计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_49860380/article/details/128222767

版权

计算机视觉专栏收录该内容

8 篇文章 0 订阅

订阅专栏

计算机标定

齐次坐标

齐次坐标，将欧氏空间的无穷远点，与投影空间中有实际意义的消失点，建立起映射关系。

把齐次坐标转化为笛卡尔坐标的方法：是前面n-1个坐标分量分别除以最后一个分量即可

一些解释和性质：

比较好的理解：

表达一个点比一个向量需要额外的信息。如果我写出一个代数分量表达(1, 4, 7)，谁知道它是个向量还是个点！

如果用齐次坐标————上面的(1, 4, 7)如果写成（1,4,7,0），它就是个向量；如果是(1,4,7,1)，它就是个点。因此可以用齐次坐标很好的将向量和点统一起来表示。

详见：https://blog.csdn.net/wonengguwozai/article/details/126123349

线性变换

线性变换包括：欧式变换Euclidean、仿射变换affine和透视变换projective。

欧式变换Euclidean

欧式变换保持了长度和角度，平移和旋转是欧式变换。也叫刚体变换。

平移

将一个点从一个位置转换到另一个位置

其中：

推广到三维：

旋转

推广到三维：

仿射变换affine

仿射变换保持了长度和角度的比值，仿射变换的例子是剪切和缩放。

缩放

剪切

透视变换projective

透视变换可以来实现有限范围的点变换为无穷远点，将图像投影到一个新的视平面（也叫投影变换）

图像成像

针孔透视

针孔模型中，光线通过一个无限小的孔，并且在成像平面上呈现出倒像。

**透视投影：**将三维物体的信息映射到二维平面上。

弱透视

弱透视投影：平面中的所有线段都以相同的放大倍数进行投影。

相机事实上成像在后面，然后取倒像

摄像机镜头

Snell定律

薄透镜

厚透镜

z是镜到cmos的距离，Z是物体到镜的距离

相机的视野

相机的视野：即实际投影到相机视网膜上的景物部分，不仅由焦距定义，还取决于视网膜的有效面积（例如，相机中可曝光的胶片面积，或数码相机中的传感器面积)。

球形像差

简单地说：就是大光圈进光亮大造成虚化。

标准答案：

球形像差，顾名思义是由于透镜的球形表面造成的像差。实际上，球面镜不能将所有光线聚焦在同一点，透过镜片边缘进入的光线会偏离焦点形成像差。尤其在大光圈的时候，有较多光线可以通过镜片。最明显就是一些光点会虚化成一团光，这是由于边缘位置进入的光线与中心聚焦的偏差较大所致。

色差

不同波长（颜色）的光线由于折射系数的差异（色散），在通过透镜时将发生不同程度的折射然后与光轴相交于不同的位置，并在同一图像平面上形成不同的模糊圈（横向色差）。

摄像机的几何标定

内参矩阵

在u和v方向上分辨率分别为mu和mv，tu和tv是平移量。

外参矩阵

相机的投影中心不在（0，0，0），主轴不在Z轴上，图像平面虽然仍然与主轴正交，但也不平行于XY平面。

设这个平移矩阵为T(Tx, Ty, Tz)。让主轴与Z轴重合的旋转矩阵由3×3旋转矩阵R给出，子矩阵（RT是平移矩阵）相乘得到3×4变换矩阵。

E被称为外参矩阵。

相机标定矩阵

张正友标定法

1.求解内参矩阵和外参矩阵的积H

当一张图片上的标定板角点数量等于4时，即可求得该图片对应的矩阵H 。当一张图片上的标定板角点数量大于4时，利用最小二乘法回归最佳的矩阵H 。

最小二乘法:简单地说就是通过n组X（u，v）和Y（U，V），求解八个参数。

https://blog.csdn.net/W1995S/article/details/118153146

2.求解内参矩阵

3.求解外参矩阵

4、标定相机的畸变参数

r为图像像素点到图像中心点的距离，即

在这里，x->u y->v

图像形成与颜色

光照及阴影

辐射度学

颜色

颜色信息反映了入射光的能量分布与波长，可见光的波长在400nm到760nm之间。

RGB

RGB分别代表三个基色（R-红色、G-绿色、B-蓝色），如(0,0,0)表示黑色、(255, 255, 255)表示白色。其中255表示色彩空间被量化成255个数，最高亮度值为255（255 = 2^8 - 1，即每个色彩通道用8位表示）。

CMYK

CMY是色料三原色，分别是青(Cyan)、品红(Magenta)、黄(Yellow)，再增加一个独立的黑色(K)

RGB 转换至CMYK

CMYK 转换至 RGB

Lab

Lab是基于人对颜色的感觉来设计的，更具体地说，它是感知均匀（perceptual uniform）的，如果数字（L、a、b这三个数）变化的幅度一样，那么它给人带来视觉上的变化幅度也差不多。

HSI

色调H（Hue）：与光波的频率有关，它表示人的感官对不同颜色的感受，如红色、绿色、蓝色等。

饱和度S（Saturation）：表示颜色的纯度，纯光谱色是完全饱和的，加入白光会稀释饱和度。饱和度越大，颜色看起来就会越鲜艳，反之亦然。

亮度I（Intensity）：对应成像亮度和图像灰度，是颜色的明亮程度。

RGB转HSI：

HSI转RGB：

HSV

H (Hue)色相：取值范围 [0, 360]

S (Saturation)饱和度，即色彩纯净度，0饱和度为白色；取值范围：[0, 1]

V (Value):明度，0明度为纯黑色；取值范围：[0, 1]

HSV转换至RGB：

RGB转换至HSV

色彩还原

全世界目前主流使用8位每通道SRGB色彩描述体系来记录我们的颜色信息，8位的灰阶256非常有限。人眼的特点是对暗部更为敏感。如果用256灰阶直

接记录物理渐变的话，那么暗部只有56个灰阶，暗部就会出现巨大的色阶断层。如果我们做一次非线性映射，也就是Gamma矫正。把0.218的光信号提到中间。那么亮部和暗部各会分配到128个色阶。

光度处理

直方图处理

手工实现直方图均衡化
了解直方图均衡化的原理之后，我们以一个简单的例子来手工计算均衡化后的图像。这里我们假设存在以下这张图像（假定图像的灰度级范围是 [0, 9]）：

计算过程如下：

原文链接：https://blog.csdn.net/qq_15971883/article/details/88699218

图像融合

直接剪切粘贴技术（cut-and-paste)：

ps抠图

Alpha融合：

实现平滑过渡的更好方法是在图像中央选择一个宽度w，并使alpha掩模在这w个像素上从0平滑过渡到1，这个过程被称为羽化，能够实现更平滑的混合。线性减小或增大的混合函数会导致梯度不连续，从平滑区域过渡到线性区域时产生被称为马赫带的可见噪声。

拉普拉斯金字塔：

综合考虑混合函数对特征大小和平滑度的约束，混合图像的理想方法是多

分辨率混合。可以用拉普拉斯金字塔进行这种多分辨率分解，其中金字塔的每一层提供不同的分辨率，而组合所有层能恢复原图像

全景图像生成：

两个相邻图像的区域进行混合

光度立体视觉

光度立体法的用途是可以重建出物体表面的法向量，以及物体不同表面点的反射率，最关键的是它不像传统的几何重建（例如立体匹配）方法那样需要去考虑图像的匹配问题，因为所需要做的只是采集三张以上，由不同方向的光照射物体的图像。这个过程中，物体和相机都不动，因此图像天然就是对齐的，这使得整个过程非常的简洁。

图像预处理

线性滤波与卷积

线性滤波

线性滤波使用的加权模式通常称为滤波的核，使用滤波的过程称为卷积。

卷积

对称性高斯模型

处理模糊问题的较好模型是对称性高斯模型

●如果高斯分布的标准差很小（甚至小于一个像素）平滑效果将会很差，因为偏离中心的所有像素的

权重都非常小。

●如果是一个大一些的标准差，相邻的像素在加权平均过程中将有大一些的权重，意味着平均的结果将偏向多数相邻点的共识，这样能够得到一个像素值的较好估计，噪声随着平滑也将大大降低，但代价是图像会有些模糊。

●最后，一个具有很大标准差的核将导致图像细节随同噪声一同消失。

非线性滤波示例

噪声是散粒噪声（或椒盐噪声），而不是高斯噪声，即图像偶尔会出现很大的值。这种情况下，用高斯滤波器对图像进行模糊，噪声像素是不会被去除的，它们只是转换为更柔和但仍然可见的散粒（图f)。使用中值滤波器是一个较好的选择。中值滤波器选择邻域像素的中值作为输出。

由于中值滤波只选一个像素作为输出像素，所以一般很难有效去除规则的高斯噪声。这时采用α﹣截尾均值滤波会得到更好的效果。α﹣截尾均值滤波是指去掉百分率为α的最小值和最大值后剩下的像素的均值。

双边滤波：

形态学算子

边缘检测

检测器

基于梯度的检测器——Sobel算子

我们将梯度计算表示成核或者滤波器的形式。当图像与这样的滤波器卷积时，我们就能得到两幅梯度图像，一个对应x方向，另一个对应y方向。计算出梯度后，如果某个像素处的边缘强度超过一定的值，我们就将该像素检测为边缘子，该选定的值称为阈值，是边缘子检测过程的一个参数。这种通过选择阈值生成二值图像的过程称为阈值化(Thresholding)。阈值化后，除了生成二值图像，我们也可以生成灰度图，其中边缘根据其方向或者强度使用不同的灰度值表示。此时，灰度值将会编码θ或者||∇f||信息。

因为它具有减少高频泄漏的特性。边缘算子之后被应

用于平滑后的图像来实现边缘检测

基于曲率的检测器

拉普拉斯算子

Canny检测器

详见：https://blog.csdn.net/weixin_51571728/article/details/121452303

边缘子聚合

用于检测参数化对象

傅里叶变换

通过傅里叶变换方法求图像卷积

特征与分类器

查找角点

Harris角点检测的基本思想：算法基本思想是使用一个固定窗口在图像上进行任意方向上的滑动，比较滑动前与滑动后两种情况，窗口中的像素灰度变化程度，如果存在任意方向上的滑动，都有着较大灰度变化，那么我们可以认为该窗口中存在角点。

分类器模式

决策树

支持向量机

基于训练集D在样本空间中找到一个划分超平面，将不同类别的样本分开。

详见:https://blog.csdn.net/qq_42192693/article/details/121164645

和

https://zhuanlan.zhihu.com/p/270298485

考到就去世吧。。。

贝叶斯分类器

集成学习

太多了，自己查吧，毁灭吧。。。

基础神经网络

神经元和多层感知机

误差反向传播算法

例题：https://blog.csdn.net/qq_39276337/article/details/120414795

本质上是链式求导法则

卷积神经网络

有可能考到的关键问题：

1.简述卷积神经网络的结构：

卷积神经网络是一种前馈神经网络，由一个或多个卷积层和顶端的全连通层组成，同时也包括关联权重和池化层。

卷积层可以产生一组平行的特征图，功能是对输入数据进行特征提取。它通过在输入图像上滑动不同的卷积核并执行一定的运算而组成。此外，在每一个滑动的位置上，卷积核与输入图像之间会执行一个元素对应乘积并求和的运算以将感受野内的信息投影到特征图中的一个元素。

卷积层中包含激励函数以协助表达复杂特征。

池化层（pooling layer）

在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤，它实际上是一种非线性形式的降采样。池化层包含预设定的池化函数，其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同，由池化大小、步长和填充控制。

完全连接层

最后，在经过几个卷积和最大池化层之后，神经网络中的高级推理通过完全连接层来完成。就和常规的非卷积人工神经网络中一样，完全连接层中的神经元与前一层中的所有激活都有联系。卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层。全连接层位于卷积神经网络隐含层的最后部分，并只向其它全连接层传递信号。

输出层

卷积神经网络中输出层的上游通常是全连接层，因此其结构和工作原理与传统前馈神经网络中的输出层相同。对于图像分类问题，输出层使用逻辑函数或归一化指数函数输出分类标签。

预处理步骤包括以下内容：

局部对比归一化，PCA白化

卷积层：

具体描述：

池化：

**空间金字塔池化层（SSP）**背后的灵感是令人关注的判别特征可以在各种尺度的卷积特征图中出现。因此，将此信息合并用于分类是有用的。

损失函数

图像分类与目标检测

图像分类

ImageNet 是一个计算机视觉系统识别项目，是目前世界上最大的图像识别数据库。此项目由斯坦福大学李飞飞教授于 2009 年发起。

用CNN进行图像分类最早可以追溯到LeNet，后续发展包括AlexNet、GoogLeNet、VGG、ResNet、ResNeXt和SENet。

目标检测与定位

基于锚点框的目标检测方法为空间每一个位置设定多个矩形框，以便尽可能地覆盖图像中存在的所有物体。基于锚点框的目标检测可以分为两类：两阶段目标检测方法和单阶段目标检测方法。

两阶段方法：首先提取 k 个类别未知的候选检测窗口，然后进一步对这些候选检测窗口进行分类和回归，生成最终的检测结果。

与两阶段方法不同，单阶段方法直接对锚点框进行分类和回归。一般而言，两阶段方法具有较高的检测精度，而单阶段方法具有较快的推理速度。

来不及复习了。。这一章算了

半山乱步

关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
【计算机视觉】完整版复习

齐次坐标，将欧氏空间的无穷远点，与投影空间中有实际意义的消失点，建立起映射关系。把齐次坐标转化为笛卡尔坐标的方法：是前面n-1个坐标分量分别除以最后一个分量即可一些解释和性质：比较好的理解：表达一个点比一个向量需要额外的信息。如果我写出一个代数分量表达(1, 4, 7)，谁知道它是个向量还是个点！如果用齐次坐标————上面的(1, 4, 7)如果写成（1,4,7,0），它就是个向量；如果是(1,4,7,1)，它就是个点。因此可以用齐次坐标很好的将向量和点统一起来表示。详见：https://blog.csdn
复制链接

扫一扫