ISP图像对齐笔记（二）：Deep Image Homography Estimation

mex_wayne

已于 2023-08-02 11:10:00 修改

阅读量944

点赞数 1

文章标签：图像处理 isp

于 2022-12-12 09:57:20 首次发布

本文链接：https://blog.csdn.net/mikhailbran/article/details/127975670

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、4-点式建模与其利弊
二、原理过程
三、训练与效果
总结

前言

ISP 图像对齐笔记（二）：Deep Image Homography Estimation
Deep Image Homography Estimation 是 2016年的文章，很多博主也有相关学习，我这里写一些我的理解
还有，为什么选取这篇文章，我阅读了众多图像对齐内容，发现这篇文章虽然简单，但有理有据思路清晰，而且通过作者的介绍说效果不错。网络呢也简单，容易在DSP或者ISP上实现。

提示：以下是本篇文章正文内容，下面案例可供参考

一、4-点式建模与其利弊

其实作者的描述是：4-point homography parameterization，如果没有理解直接翻译会很直白没有内在的理解。其实作者是找到了一种将原图和warp图之间进行联系的桥梁，也就是一副图的四个角点，这是他的最巧妙的思路也是最制约本文拓展和在工业界实现根本问题。
在这里插入图片描述
如果这四个角点的位置在下图黄框内框起来的的范围改变

那么就是我们最基础的形变如下绿框所示。

那么问题来了2个：
（1）这里是个刚性变换，也就是四个点之间的连线都是直线，那么一般ISP镜头存在的曲面畸变，那么这个文章介绍的方法是无法可取的，同时作者也没说曲面怎么解决，但相关问题是可以解决的业内很多解决方案。

（2）这里建模时没有考虑辐照度、噪声的变化，也就是两幅图有个辐照度的差别时作者没说，造训练样本时也没说，但是文章结尾补了一句：
在这里插入图片描述
作者人为，环境（估计是亮度），噪声、运动模糊、遮挡都可以通过网络解决（估计是通过样本解决）

总之作者的思路是合理的只是有些状态非常理想，不是那种网络干了什么不知道但是就是效果好的设计。

二、原理过程

单应性变换有个最朴素的建模：
在这里插入图片描述
一般可以将其归一化后H33是个1，这里不赘述。那么变量也就是8个。

在这里插入图片描述
那么一般性的单应性变化过程可以描述为：

作者通过这个关系建立了，自己造出来的warp 和求得的H阵。
但是这里光有了H阵怎么和训练建立联系？因为训练需要有个ground truth
因此作者有如下过程

假设我们原图是A，warp后的图是 B 那么HAB表示从A映射到warp 图B 上的 matrix阵。如果对这个HAB求逆，那么就是HBA
在这里插入图片描述
也就是HBA在warp图上根据warp图坐标系框出来的一定是个等价于原图A的这么一个图。这是个挺巧妙的思路。
恰巧是基于这个思路
其实作者才能将图片对齐用分类网络搞定（这里是VGG）

网络的前向层的计算量是完全可以部署在很多DSP或者带强计算算子的ISP上。

三、训练与效果

（1）除了上述创造性的过程外，作者还说了数据集就是COCO数据集，再次基础上不够的训练样本通过一张图上随机位置P、随机4个点的变化得到更多的训练样本。
（2）作者说了下网络结构，略。
（3）回归网络（regression network）和分类网络（classification network）这里作者也提了下：
首先，回归网络在训练时，实际总结输出8个求解后的坐标值并且最后一层是欧式L2loss，优势是简单。但是问题在于没有很么很好的置信度用于预测，这种策略很容易不收敛。

然后是分类网络，用的最后一层是softmax，且loss 函数用的交叉熵（详细见这里https://zhuanlan.zhihu.com/p/35709485）
这个方法确实能为每个图像角点产生置信度，详细见论文，这里不赘述。
在这里插入图片描述
但是从效果上看作者说 regression 的要比 classification的要好

但总之用net的方式能比传统算法那好（我是没想到 orb+ransac 效果竟然可以这么好）