R TALK 」是一个深度学习专栏,由北京智源-旷视联合实验室推出,旨在通过一场场精彩纷呈的深度学习演讲,展示旷视研究院的学术分享及阶段性技术成果,抛砖引玉,推陈出新,推动中国乃至全球领域深度学习技术的发展。这是「R Talk」第 8 期分享。
大家好,我是旷视成都研究院负责人刘帅成,今天分享的主题是图像对齐及其应用。由于这个领域内容丰富,今天只能涵盖其中一部分,基于这些年我对图像对齐的思考。
这次R TALK的分享大纲涉及3个方面:
图像对齐技术广泛应用于计算机视觉各类任务,比如对不同视角下拍摄的图片进行拼接(Image stitching)、智能手机等摄像设备在Burst模式下的图像降噪、图像超分辨率应用、视频防抖,以及生成基于多次曝光的高动态范围HDR图像等等。
另外,随着手机的发展,越来越多的摄像头(长焦、广角镜头)被集成在一台设备之上,它们之间如何协同工作也与图像对齐技术息息相关。
总而言之,图像对齐不仅局限在上述场景,在医学图像领域也有广泛的应用,以及跨模态数据的对齐任务也需要图像对齐算法。所以我认为,图像对齐有点类似习武之人锻炼的内功,是一种非常基础且底层的能力,服务于上层具体的其它算法。
图像对齐面临的基本挑战
在传统对齐任务中,最常用的方式是特征点的检测和匹配,这种方式面临着5大挑战:
第一,重复纹理。对于有重复纹理的场景(比如很多建筑的窗户非常类似),系统可能检测出很多特征点,但进行匹配时却不能有效一一对应。
第二,弱纹理、无纹理。比起重复纹理,弱纹理可能对于对齐来说更加困难。比如下图(墙、天空)。对于没有什么特征纹理的场景,系统很难在这些部分找出特征点,更不用说进行有效的对齐操作。
第三,大前景干扰。当图像中出现大前景干扰时(无论是动态还是静态干扰),都会对系统的鲁棒性造成很大挑战,因为这种情况下当画面视角稍加变化,受遮挡影响,画面中可能就会出现从未见过的新场景。
第四,夜景、噪声干扰。与无纹理情况类似,这类情况也会对特征点的检测提出挑战,在夜景、噪声干扰下,系统往往只能在一小块区域检测出特征点,然而用一小块区域来对齐整张图像,效果往往不尽如人意。
第五,大视差。所谓大视差问题即由于拍摄角度发生了较大变化而对对齐模型造成的挑战。
在了解了图像对齐的含义以及面临的主要问题之后,下面开始介绍今天的第一部分内容。
传统图像对齐法
就图像对齐的传统方法而言,总体上可以分为三大类:Homography、Mesh Warps和Optical flow。本次TALK着重在前两者,Optical flow(光流)法不作展开。
Homopgraphy
首先,所谓Homography变换,中文称之为透视变换,对应为3x3变换矩阵称之为单应性矩阵,如下图H。
其中由于使用的是齐次坐标系,所以h_22一般等于1,即该矩阵只有8个自由度,又因为估算8个自由度需要4对匹配点,一对匹配点提供2约束,因此会有8个方程。
当特征点的匹配超过4个,那么就是解一个超定方程。如果大家对Homography感兴趣,具体内容可以参阅《Multiple View Geometry》这本书,介绍很详细。
Homogr