全景视频拼接关键技术（转）

mahui85

已于 2023-08-29 13:59:28 修改

阅读量2.9k

点赞数 2

文章标签：数码相机计算机视觉人工智能

于 2023-08-27 18:46:27 首次发布

原文链接：https://zhuanlan.zhihu.com/p/639675917

版权

一、原理介绍

图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度图像或360度全景图，图像拼接技术涉及到计算机视觉、计算机图形学、数字图像处理以及一些数学工具等技术。图像拼接其基本步骤主要包括以下几个方面：摄相机的标定、传感器图像畸变校正、图像的投影变换、匹配点选取、全景图像拼接（融合），以及亮度与颜色的均衡处理等，以下对各个步骤进行分析。

摄相机标定

由于安装设计，以及摄相机之间的差异，会造成视频图像之间有缩放（镜头焦距不一致造成）、倾斜（垂直旋转）、方位角差异（水平旋转），因此物理的差异需要预先校准，得到一致性好的图像，便于后续图像拼接。

图像坐标变换

在实际应用中，全景图像的获得往往需要摄像机以不同的位置排列和不同的倾角拍摄。例如由于机载或车载特性，相机的排列方式不尽相同，不能保证相机在同一面上，如柱面投影不一定在同一个柱面上，平面投影不一定在同一平面上；另外为了避免出现盲区，相机拍摄的时候往往会向下倾斜一定角度。这些情况比较常见，而且容易被忽略，直接投影再拼接效果较差。因而有必要在所有图像投影到某个柱面（或平面）之前，需要根据相机的位置信息和角度信息来获得坐标变换后的图像。

理论上只要满足静止三维图像或者平面场景的两个条件中的任何一个，两幅图像的对应关系就可以用投影变换矩阵表示，换句话说只要满足这其中任何一个条件，一个相机拍摄的图像可以通过坐标变换表示为另一个虚拟相机拍摄的图像。

图像畸变校正

由于制造、安装、工艺等原因，镜头存在着各种畸变。为了提高摄像机拼接的精度，在进行图像拼接的时候必须考虑成像镜头的畸变。一般畸变分为内部畸变和外部畸变，内部畸变是由于摄影本身的构造为起因的畸变，外部畸变为投影方式的几何因素起因的畸变。镜头畸变属于内部畸变，由镜头产生的畸变一般可分为径向畸变和切向畸变两类。径向畸变就是集合光学中的畸变像差，主要是由于镜头的径向曲率不同而造成的，有桶形畸变和枕型畸变两种。切向畸变通常被人为是由于镜头透镜组的光学中心不共线引起的，包括有各种生成误差和装配误差等。一般人为，光学系统成像过程当中，径向畸变是导致图像畸变的主要因素。径向畸变导致图像内直线成弯曲的像，且越靠近边缘这种效果越明显。根据径向畸变产生的机理，对视频图像进行校正。

图像投影变换

由于每幅图像是相机在不同角度下拍摄得到的，所以他们并不在同一投影平面上，如果对重叠的图像直接进行无缝拼接，会破坏实际景物的视觉一致性。所以需要先对图像进行投影变换，再进行拼接。一般有平面投影、柱面投影、立方体投影和球面投影等。

平面投影就是以序列图像中的一幅图像的坐标系为基准，将其图像都投影变换到这个基准坐标系中，使相邻图像的重叠区对齐，称由此形成的拼接为平面投影拼接；柱面投影是指采集到的图像数据重投影到一个以相机焦距为半径的柱面，在柱面上进行全景图的投影拼接；球面投影是模拟人眼观察的特性，将图像信息通过透视变换投影到眼球部分，构造成一个观察的球面；立方体投影是为了解决球面影射中存在的数据不宜存储的缺点，而发展出来的一种投影拼接方式，它适合于计算机生成图像，但对实景拍摄的图像则比较困难。

匹配点选取与标定

由于特征点的方法较容易处理图像之间旋转、仿射、透视等变换关系，因而经常被使用，特征点包括图像的角点以及相对于其领域表现出某种奇异性的兴趣点。Harris等提出了一种角点检测算法，该算法是公认的比较好的角点检测算法，具有刚性变换不变性，并在一定程度上具有仿射变换不变性，但该算法不具有缩放变换不变性。针对这样的缺点，Lowe提出了具有缩放不变性的SIFT特征点。

图像拼接融合

拼接后的视频

图像拼接的关键两步是：配准(registration)和融合(blending)。配准的目的是根据几何运动模型，将图像注册到同一个坐标系中；融合则是将配准后的图像合成为一张大的拼接图像。

在多幅图像配准的过程中，采用的几何运动模型主要有：平移模型、相似性模型、仿射模型和透视模型。

图像的平移模型是指图像仅在两维空间发生了方向和方向的位移，如果摄像机仅仅发生了平移运动，则可以采用平移模型。图像的相似性模型是指摄像机本身除了平移运动外还可能发生旋转运动，同时，在存在场景的缩放时，还可以利用缩放因子多缩放运动进行描述，因此，当图像可能发生平移、旋转、缩放运动时，可以采用相似性模型。图像的仿射模型是一个6参数的变换模型，即具有平行线变换成平行线，有限点映射到有限点的一般特性，具体表现可以是各个方向尺度变换系数一致的均匀尺度变换或变换系数不一致的非均与尺度变换及剪切变换等，可以描述平移运动、旋转运动以及小范围的缩放和变形。图像的透视模型是具有8个参数的变换模型，可以完美地表述各种表换，是一种最为精确变换模型。

图像融合技术一般可分为非多分辨率技术和多分辨率技术两类。在非多分辨率技术中主要有平均值法、帽子函数法、加权平均法和中值滤波法等。多分辨率技术主要有高斯金字塔、拉普拉斯金字塔、对比度金字塔，梯度金字塔和小波等。

针对监控摄像头，将多个相互之间画面有重叠的视频流通过鱼眼矫正->透视变换->裁切->拼接成一路完整的全景视频。

即通过视频拼接技术，对有重叠区域的多路源视频数据利用拼接算法进行无缝实时拼接，消除重叠区域，形成宽角度、大视场视频图像，从而实现将多路监控视频拼接成一路视频，使拼接后的视频清晰无缝，并实时播放，同时支持回放查看，解决多个人同时对同一监控场景不同角度进行观看的需求，充分满足用户的需求。

多摄像头的图像拼接
　　对于摄像头的拼接技术早在很多年前就被国内外许多研究者研究和应用一般的摄像头都是由帧图像组成，多摄像头则是多种帧图像的拼接，而拼接是需要融合和匹配两大核心技术。
　　匹配帧图像
　　帧图像呈现出来图像质量的好坏跟图像匹配时的精确度密切相关，所以要注重把握好图像的精确度是匹配帧图像的重点工作。要把握好图像的精确度就要求在选择既能满足精确度又能满足计算简易度的匹配算法。对一幅图像的特征选择匹配关键是检测特征点，比较常见的检测特征点的算法有：Harris算法和Canny算法。文章就针对SIFT算法对图像拼接技术的基数进行转换。这种算法主要涉及两个过程，第一个过程就生成SIFT的特征，第二个过程就是SIFT匹配向量特征。只有当两幅图像都完成向量匹配的时候我们就可以利用欧式距离进行计算，从而判断两幅画的相似特征。需要注意的就是在匹配过程中难免会出现误差，这就需要利用RANSAC算法进行纠正。
　　融合帧图像
　　虽然融合帧图像的算法有许许多多，但是文章就利用图像平滑过渡算法进行帧图像的融合，我们假设融合区域的变化因子是R，image A以及image B 代表的是图像在融合前后的像素值，而image C代表的是融合区域的像素值，就可以依照以下公式进行计算：image A等于R乘以image A 加上括号A 减去R的值乘以image B.其中R的值要大于零小于一。经过这样的算法帧图像的融合就能够顺利实现拼接。
　　消除因为接缝而出现的公用模板
　　图像的拼接可能会受到曝光的因素，所以在融合帧图像的过程中非常容易出现拼接缝，其实就相当于帧图像产生的噪声，我们可以通过给图像进行去噪处理来清除拼接缝。以前的去噪方法虽然多，但是因为去噪之后的图像质量不好，所以不建议使用。而现在采用的是对图像有重叠的地方利用加权平滑的方式把灰度值和对应试点的灰度值进行加权就能实现，这一过程完整实现之后就可以保留匹配过程中的剪切模板和变换矩阵。
　　多摄像头拼接成一个摄像头
　　要实现多个摄像头组成一个摄像头的工作，就要考虑在拼接过程中由于帧图像的融合和匹配花费时间最多，后续工作的时间就应当适当减少，这是为了提高工作效率，并且能够发挥多摄像头拼接的作用。因为安装摄像头的时候线路都是比较固定的，所以一般来讲摄像头的位置都是不变的，所以我们提取多个摄像头图像的时候要记录好首帧图像的变换矩阵，然后利用首帧图像对变形后的帧图像进行融合和裁剪，这样做的目的就是能够为以后多摄像头的拼接工作提供方便。
　　提取新摄像头的视频
　　摄像头在我们实际生活中应用十分广泛，特别是在监控领域摄像头的作用不能忽视，当我们把多个摄像头裁剪成一个摄像头后，就有可能会出现一些没有用的视频信息被记录下来，这些信息对于我们来说也没有用处，并且还占据了大量的内存，要解决这一问题就要应用到视频摘要，就是利用对视频信息进行检测和分析之后自动提取有效的信息并且将信息组合起来的技术，这种技术具有很强的实用性。

如有需要多路摄像头拼接的朋友，欢迎联系 18017714007