【论文精读】Deep Rectangling for Image Stitching: A Learning Baseline

代码:https://github.com/nie-lang/DeepRectangling

链接:https://arxiv.org/abs/2203.03831

概览

目前图像拼接的一个问题是拼接后会产生不规则的边界,如下图1 b所示。目前解决这类问题主要是通过图像矩形化方法,并且通常是分为两个阶段,第一阶段搜索初始网格,第二阶段优化网格来完成网格变形,然后 warp 输入的拼接图像来生成矩形图像,不过这类方案只适合处理具有丰富线性结构的图像,对于带有非线性结构的人物和风景会有明显失真的情况。

本文通过提出第一个图像矩形的深度学习解决方案来解决这些问题。具体来说,我们预先定义了一个刚性目标网格,并且只估计一个初始网格以形成网格变形,从而有助于一个紧凑的单阶段解决方案。使用具有残差渐进回归策略的全卷积网络预测初始网格。为了获得具有高内容保真度的结果,提出了一个综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。此外,我们构建了第一个图像拼接矩形数据集,在不规则边界和场景中具有很大的多样性。实验证明了我们在数量和质量上都优于传统方法。


主旨

作者想解决什么问题

由于图像拼接的时候,目前大多数方法主要重点优化全局或者局部 warp 来对其不同图像的重叠区域,而非重叠区域会受到不规则边界的影响。

作者通过什么理论/模型来解决这个问题

图像矩形化

作者给出的答案是什么?

提出一种一阶段的图像矩形化方法,具体来说就是设计了一个简单但有效的全卷积网络,以使用残差渐进回归策略从拼接图像中估计内容感知初始网格,然后使用预定义的刚性目标网格进行高效并行计算。此外,提出了一个由边界项、网格项和内容项组成的综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。

作者为什么研究这个课题?

  1. 不规则的边界会影响观感;

  2. 目前采用的图像矩形化仅适合具有丰富线性结构的图像,对带非线性结构的人物和风景会有明显失真情况;

目前这个课题的研究进行到哪一个阶段?

对于不规则边界的处理,目前有这几种方法:

  1. 通过裁剪方法来处理,但是裁剪会降低拼接图像的 FOV,这和图像拼接的目的矛盾;

  2. 采用图像补全来将缺失区域合成为矩形图像,但目前还没有相关工作为不规则边界设计掩码,并且 SOTA 的图像补全工作对图像拼接的处理效果也不让人满意;并且可能添加一些看起来和谐但是和现实不同的内容,这在自动驾驶等高安全性应用中是不可靠的;

  3. 而图像矩形化方法主要是通过网格变形来将拼接图像 warp 为矩形,但它们只能保留具有线性结构,比如建筑物、盒子、柱子等,对非线性结构,比如肖像、风景,都会产生失真;另外就是它们采用两阶段,并不好实现并行加速;


研究方法

提出了第一阶段学习基线,即我们预定义了一个刚性目标网格并仅预测一个初始网格。具体来说,我们设计了一个简单但有效的全卷积网络,以使用残差渐进回归策略从拼接图像中估计内容感知初始网格。此外,提出了一个由边界项、网格项和内容项组成的综合目标函数,以同时鼓励边界矩形、网格形状保持和内容感知自然。与现有方法相比,由于我们的内容约束中的有效语义感知,我们的内容保存能力更通用(不限于线性结构)和更健壮。

Traditional Baseline

对于一个经典的传统方法,一般是分为两阶段的:局部阶段和全局阶段(如下图2 a 所示).

Stage 1:局部阶段。首先,在拼接图像中插入丰富的接缝,使用接缝雕刻算法 [1] 得到初步的矩形图像。然后,在初始矩形图像上放置一个规则网格并移除所有接缝以获得具有不规则边界的拼接图像的初始网格。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
import cv2 as cv import numpy as np def cv_show(name,img): cv.imshow(name,img) cv.waitKey(0) cv.destroyAllWindows() def detectAndDescribe(image): gray = cv.cvtColor(image,cv.COLOR_BGR2GRAY) sift = cv.xfeatures2d.SIFT_create() (kps,features)=sift.detectAndCompute(image,None)#这里的kps是一个特征点对象,,属性有.pt关键点坐标 #.angle关键点方向 .response响应强度 .size该点的直径大小 kps = np.float32([kp.pt for kp in kps])#此刻得到kps特征点对象中每一个特征点的坐标。 return (kps,features) def matchKeypoints(kpsA,kpsB,features1,features2,ratio): bf = cv.BFMatcher() rawMatches = bf.knnMatch(features1,features2,2)#rawMatcher是一个Dmatch型对象,属性有.distance描述符间距离 #.trainIdx样本图像特征点标识符,.queryIdx测试图像的特征点标识符,.imgIdx训练图像的索引 matches = [] for m,n in rawMatches: if m.distance 4: pts1 = np.float32([kpsA[i] for (_,i) in matches])#将测试图像的坐标储存到Pts1里 pts2 = np.float32([kpsB[i] for (i,_) in matches])#将样本图像的坐标储存到pts2里 # 计算视角变换矩阵H #参数一,测试图像的特征点坐标,参数二,样本图像的特征点坐标,参数三,RANSAC算法: #RANSCA原理, 因为拟合一条直线只需要两个点,因此我们每次随机选取两个点,做出直线,划定一个距离,判断落在直线周围距离范围点的个数, # 不断的迭代,直到找出拟合的直线,使得点落在上面最多的拟合曲线 #参数四:参数范围1~10,原图像的点经过变换后点与目标图像上对应点的误差,超过了就是outlier (H, status) = cv.findHomography(pts1, pts2, cv.RANSAC, 5) return (matches, H, status) return None imageA = cv.imread("E:/opencv/picture/right1.jpg") imageB = cv.imread("E:/opencv/picture/left1.png") (kpsA,features1)=detectAndDescribe(imageA) (kpsB,features2)=detectAndDescribe(imageB) M = matchKeypoints(kpsA, kpsB, features1, features2, 0.75) (matches, H, status) = M # 将图片A进行视角变换,result是变换后图片 result = cv.warpPerspective(imageA, H, (imageA.shape[1] + imageB.shape[1], imageB.shape[0])) cv_show('result1',result) result[0:imageB.shape[0], 0:imageB.shape[1]] = imageB cv_show('result2', result) 经常遇到的一个错误: new style getargs format but argument is not a tuple 针对这句代码:result = cv.warpPerspective(imageA,M,[imageA.shape[1]+imageB.shape[1],max(imageA.shape[0],imageB.shape[0])]) 原因是size那个参数应该是tuple(),而不是list[]。即应该是()而不是[]。 下面讲一下这个案例的大体过程: 1.首先我们是通过SIFT算法找到两张图(right,left)的特征点及特征向量,并把特征点的坐标储存起来。 2.通过蛮力匹配算法的得到kWmatches对象,将kWmatches对象的queryIdx和trainIdx给存起来,其中features1对应的图像为样本图像 3.求出样本图像的特征点坐标和测试图像的特征点坐标,找出这两坐标矩阵的H变换公式(利用RANSAC算法),将H变换公式对right图像做透视变换,得到拼接后的右边图像 4.将left原图赋给result对应的ROI区域,大功告成。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

spearhead_cai

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值