深度好文：理解可变形卷积和光流对齐

最新推荐文章于 2025-04-07 16:17:31 发布

小白学视觉

最新推荐文章于 2025-04-07 16:17:31 发布

阅读量1.9k

点赞数 2

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247600816&idx=4&sn=8100a06524dd7cd34560080b4314c082&chksm=fb54a85ccc23214a27cdc1b0cc23e614934e05810ce857d967db10297b5f4280f62e22f087b0&scene=126&&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

摘要

可变形卷积最近在对齐多个帧方面表现出了令人信服的性能，并且越来越多地被用于视频超分辨率。尽管它有着显著的表现，但其潜在的对齐机制仍不清楚。本文仔细研究了变形对齐和经典的基于流的对齐之间的关系。贡献如下：

1.第一次正式研究与确立变形对齐与基于流的对齐这两个重要概念之间的关系。2.系统地研究了偏移多样性。结果表明，偏移多样性是提高对齐精度和SR性能的关键因素。3.提出了一个偏移精度损失在保持偏移多样性的同时稳定训练，得到了1.7dB的改进。

方法与实验

可变形卷积

首先简要回顾可变形卷积（DCN）。设是核大小为n=3的标准卷积中的第k个采样偏移量，则

{(-1,-1),(-1,0),···,(1,1)}

表示位置处的第k个附加学习偏移量。可变形卷积可表示为：

在实际应用中，可以利用C/G通道将C通道特征划分为G组特征，并对每个空间位置学习×G偏移量。在DCNv2中，引入了调制掩模（modulation mask），以进一步增强操纵空间支持域的能力:

调制掩模可以看作是一个注意模块，它考虑了特征的相对重要性。

可变形对齐

可变形对齐应用可变形卷积将相邻特征与参考特征对齐。以参考特征和相邻特征为输入，通过卷积来预测偏移量。参考特征仅用于预测偏移量，不参与后续卷积，TDAN中的可变性对齐如下图：

可变形对齐与光流对齐的关系

上述（1）式的公式可表示为：

其中

相当于1×1×的标准三维卷积。如下图，核为3×3的可变形卷积可分解为9个空间扭曲和1个三维卷积。核权重用w表示。

在这里插入图片描述

对上式一般化，使用N来代替上式中的，消除了偏移量必须为平方数的约束；通过在通道维数上叠加N个扭曲特征，1×1×N的3D卷积可以实现为1×1二维卷积。换句话说，DCN相当于N个单独的空间扭曲，然后是1×1的2D卷积。

当n=1时相当于空间扭曲，然后是1×1卷积。在运动补偿的情境中，这种特殊情况等于光流对齐。换言之，可变形和基于流的对齐共享相同的公式，但偏移量数量不同。

通过计算偏移量与光流的像素差，定量研究了偏移量与光流（PWC-Net）的相关性。如下图所示，超过80%的估计值与光流的差值小于一个像素。这表明，在G=N=1的情况下，可变形对齐实际上与基于流的对齐非常相似。

训练两个实例化——原始DCN和分解（扭曲加卷积）。如下图所示，实验表明这两个实例化实现了相似的性能。

在这里插入图片描述

通过逐渐增加偏移量来检查性能增益，并尝试检查更多偏移量是否总能带来更好的性能。下图显示了不同N的定性比较。特别地，当偏移量从1增加到5时，PSNR迅速增加。当N进一步增加时，峰值信噪比饱和在30.23dB左右，模型的性能与偏移多样性呈正相关（基于这六个数据点，Pearson相关系数=0.9418）。这一结果表明，偏移多样性实际上有助于性能的提升。

偏移精度损失

随着网络容量的增加，变形对齐的训练变得不稳定，偏移量的溢出严重降低了模型的性能。本文提出了一个偏移精度损失来约束偏移，使其不会偏离光流太多。此外，为了便于学习最佳和多样的偏移量，引入了Heaviside阶跃函数，函数定义如下：

损失如下：

其中，L为训练损失。λ和t是控制偏移多样性的超参数。变形对齐的训练是不稳定的。不稳定的训练过程会导致偏移量的溢出。为了避免偏移溢出，本文提出了偏移精度损失来约束学习的偏移量，使其不会偏离光流太多。另外，由于偏移多样性在视频SR中的重要性，我们允许网络学习最佳偏移量，只要它们与光流的差不超过某个阈值。在EDVR上进行了实验，额外的改善高达1.73dB。

好消息！

小白学视觉知识星球

开始面向外开放啦👇👇👇

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~