CFNet：基于孪生网络的反向传播滤波器

最新推荐文章于 2025-02-25 11:01:18 发布

Zxin_187

最新推荐文章于 2025-02-25 11:01:18 发布

阅读量4.4k

点赞数 6

分类专栏：目标跟踪基于相关滤波的目标跟踪基于深度的目标跟踪

本文链接：https://blog.csdn.net/weixin_39467358/article/details/84070569

版权

目标跟踪同时被 3 个专栏收录

8 篇文章

订阅专栏

基于相关滤波的目标跟踪

6 篇文章

订阅专栏

基于深度的目标跟踪

4 篇文章

订阅专栏

论文全名：End-to-end representation learning for Correlation Filter based tracking

论文摘自CVPR 2017，由Jack Valmadre、Luca Bertinetto、Jõao F. Henriques、Andrea Vedaldi与Philip H. S. Torr撰写。该论文是Siamese-fc的改进版。

摘要

相关滤波器是一种训练线性模板以区分图像及其转换图像的算法。因为它在傅立叶域中快速运行，使得检测器在每帧都能重新训练，它非常适合物体跟踪。但是，使用相关滤波器的先前工作是需要针对不同任务进行训练。

特点：是第一个将具有封闭式解决方案的相关滤波学习器作为深度神经网络中的一个分层来进行训练：这样可以学习与相关滤波器紧密耦合的深度特征。

实验表明，我们的方法具有重要的实际好处，在轻量级架构下实现高帧率运行。

1 前言

在线训练深度网络，从一个或几个例子中捕获未知的对象类，具有挑战性。跟踪目的是在序列开始时只监督边界框，从而在视频上对对象进行重检测。主要挑战是对目标对象先验知识的缺乏。

（1）带有随机梯度下降（SGD）的深度网络优化

特点：忽略先验知识的缺乏，将预训练的深度卷积神经网络（CNN）适应目标

缺点：有限的训练数据和大量参数成为问题；SGD对于在线调整来说计算相当昂贵。

（2）Siamese CNN

特点：不对网络进行在线调整；将深度嵌入用作通用的对象描述符；使用离线训练区分两个图像块是否包含相同的对象

缺点：使用固定标准来比较目标外观会阻止算法学习视频的特点。

（3）相关滤波器（CF）

特点：使用在线学习方法；其效率使得跟踪器能够在每一帧上实时调整模型；使用快速傅里叶变换（FFT）解决脊回归问题；比SGD更有效；与嵌入法相反，允许判别器针对特定视频。

（4）CNNs + CFs

特点：将CF的在线学习效率与CNN的离线学习功能相结合，改进了性能。

缺点：CF应用预先训练的CNN特征上，而没有两种方法的任何深度集成。（思考：CNN-CF组合是否也可以进行端到端训练？）

实现的关键步骤是将CF（训练学习问题的良药！）放入可分的CNN层，以便可以通过CF将错误送入CNN特征。因此，这需要区分大线性方程组的解。本文提供了相关滤波器导数的闭合表达式，具体方法：将CF纳入Siamese-fc框架，CF没有改善网络的效果，但实现了几千个参数的超轻量级网络，且速度很快。

2 相关工作

（1）自MOSSE之后，相关滤波器知名度直线提升，为简单起见，作者采用了相关滤波器的基本公式。

（2）在ECCVW2016时作者便提出了Siamese-fc孪生网络，所以在本论文中使用了该网络。

（3）相关滤波器层=计算正则化反卷积问题 $\neq$ “反卷积层”的上采样卷积层。相关滤波器采用二次正则化而不是1-范数正则化，提出了一个封闭式的解决方案。

（4）对于训练期间反向传播梯度优化算法，作者研究了SVD和Cholesky分解的反向传播形式（梯度下降能够计算线性方程组与特征值），通过求解线性方程组，实现一种有效的反向传播过程，其中矩阵为循环矩阵。

（5）使用传统学习问题传播梯度。

3.具体思想

我们随后推导出我们网络中主要新成分的评估和反向传播的表达式，

相关滤波器层在前向传递中在线学习（第3.4节）

3.1 Siamese-fc网络（网络框架）

与全卷积的Siamese框架不同，该网络输入包括训练图x'和测试图z'的对（x'，z'）。x'表示以初始帧中的目标对象为中心的图像块，z'表示下一帧中较大的搜索区域。它们都由可学习参数ρ的CNN fρ处理。生成两个特征映射，进行交叉互关联，使目标位置对应最大响应值，与全卷积的Siamese框架类似，离线训练网络，从视频集合中获取数百万随机对（x'i，z'i）。对应一个值为{-1,1}的ci的空间映射（真实对象位置属于正样本，其余属于负样本）。损失函数定义为。

3.2 跟踪算法（跟踪框架）

采用简单的跟踪算法来评估相似度函数，在线跟踪时，搜索图像块大小为之前帧中目标对象大小的四倍，将目标对象与搜索区域的特征表示进行比较，用前向模式评估网络，对象的新位置为得分最高的位置。
区别：原始的Siamese-fc网络简单地将每个帧与对象的初始帧进行比较，而该框架在每个帧中计算一个新template，然后将其与前一个template相结合。

3.3 CFNet（相关滤波网络）

CFNet：不对称的Siamese网络
对两个输入图像进行相同的卷积特征变换后，“训练图x”用于学习线性template，然后通过 **互相关**搜索“测试图z”。

一、作者使用x和互相关符之间的相关滤波块代替式（1）的网络，最终的架构如图1所示，公式为

（1）与KCF核心相同，通过求解傅立叶域中的脊回归问题，对于训练特征图x，从w =ω（x）中计算出标准的CFtemplate w（更具鲁棒性）；

（2）为了让结果适合于逻辑回归，引入标量参数权重s和偏差b；

（3）将式（2）中的g替换成h，训练方法与Siamese-fc相同。

二、在2015年提出的SRDCF与CFLB中，都提到了扩大相关滤波器中的图像区域后效果明显提升；为了减少循环边缘的影响，特征图x预先乘以余弦窗（MOSSE）并裁剪最终的template（一作的又一理论性论文）。

三、提出将CF template放入网络，达到端到端训练。

3.4 相关滤波器（在傅里叶域中用CF以封闭式反向传播梯度）

一、公式

与KCF算法类似，给定图像x∈Rm×m，CF template $w\in \mathbb{R}^{m\times m}$ 与 $x\ast \delta _{-u}$ （x的循环移位）的内积尽可能接近期望响应y[u]：，其中 $\mathbb{U}=\begin{Bmatrix} 0,\cdots ,m-1 \end{Bmatrix}^{2}$ 是图像的域，y[u]是 $y\in \mathbb{R}^{m\times m}$ 的第u个元素，δτ是狄拉克δ函数。使用 $\ast$ 来表示循环卷积和 $\star$ 表示循环互相关。损失函数为，其中n=| $\mathbb{U}$ |是样本的有效数量，最优CF template w必须满足方程组（见附录C）

（一）先前条件：

将损失问题等价成约束优化问题，即，用拉格朗日求鞍点法求解该方程（对应参数求偏导），得到：，。其中，令，那么 $w=X\alpha =\sum_{i=1}^{n}\alpha _{i}X_{i}$ （25），当特征数d大于核矩阵维度n时，对偶解比原解效果更好。

（二）对于单通道CF：

（1）由于矩阵X（由向量x循环组成）为对称矩阵，有定义（循环互相关计算中第u个元素）：

，那么由式（25）得：（28）。

（2）对于任意的向量z，利用式（28）和傅立叶变换与逆变换，有： $FX^{T}Xz=FX^{T}(z\star x)=F((z\star x)\star x)=\hat{z}\circ \hat{x}\circ \hat{x}=F(z\ast (x\star x))$ ，与结合，有： $k\ast z=Kz=\frac{1}{n}X^{T}Xz+\lambda z=\frac{1}{n}z\ast (x\star x)+\lambda z=z\ast (x\star x+\lambda \delta )$ ，则有：。

（3）同样的，对于上面提到的与，可以解出。

得到方程：与对应傅里叶域中：。

附：至于式（32）中进行傅立叶变换后x变成了它的共轭，可以从KCF的4.4节中找出答案： $\begin{align*} &X^{H}X=Fdiag(\hat{x}^{*})F^{H}Fdiag(\hat{x})F^{H} \\ & = Fdiag(\hat{x}^{*})diag(\hat{x})F^{H} \\ &= Fdiag(\hat {x}^{*} \odot \hat{x})F^{H} \end{align*}$ 。

（三）对于多通道CF：

在KCF中提到，对偶空间在多通道情况下效率更高（相比单通道），且计算与通道数量成线性关系。对于具有k个通道的信号，对应的式（21） $\begin{align*} & arg\, min\frac{1}{2n}\left \| \sum_{p}X_{p}^{T}w_{p} -y\right \|^{2}+\frac{\lambda }{2}\left \| \sum_{p}w_{p} \right \|^{2}\\ &= arg\, min\frac{1}{2n}\left \| \sum_{p}X_{p}^{T}w_{p} -y\right \|^{2}+\frac{\lambda }{2}\sum_{p}\left \| w_{p}\right \|^{2} \end{align*}$ 与式（22） $L(w,r,v)=\frac{1}{2n}\left \| r \right \|^{2}+\frac{\lambda }{2}\sum_{p}\left \| w_{p} \right \|^{2}+v^{T}(r-\sum_{p}X_{p}^{T}w_{p}+y)$ ，可以得出

（1）；

（2）核矩阵 $\LARGE \Rightarrow$ ；

（3）

得到方程：与对应傅里叶域中：。

二、滤波器的反向传播

在计算图上，采用变量与变量（根据线性函数y=f(x)计算），最终损失为，偏导数为，反向传播图是从∇y到∇x的线性图。

（一）矩阵微积分：

反向传播是通过计算输出来间接计算输入。

在程云鹏等著作的《矩阵论》中p169（网页对应的第95页）例3.15给出了该式的详细证明：

即有：。

（二）定义反向传播：

定义反向传播的线性映射：，那么对于都为实数域中的向量，有 $\LARGE \begin{align*} \left \langle J^{*}(v),u \right \rangle &=\left \langle v^{*}\frac{\partial f(x)}{\partial x} ^{*},u\right \rangle =\frac{\partial f(x)}{\partial x} ^{*} \left \langle v^{*},u \right \rangle= \left \langle v,\frac{\partial f(x)}{\partial x}u \right \rangle \\ &=\left \langle v,J(u) \right \rangle \end{align*}$ （41）与两个输入的梯度相关：。

反向传播图是线性图，作者采用Parseval定理，它表明傅里叶变换是单一的（除比例因子）：。
对式（31）求微分得到：与对应傅里叶域中的。得到图2（在傅立叶域中）：

（三）单通道CF中的反向传播：

上面提到，反向传播图是作为差分线性图的伴随。我们可以自由地在傅里叶域中获得这些伴随映射，因为Parseval定理提供了内积的存储。

（1）设 $\LARGE J_{1}$ 为 $\LARGE dx \mapsto dk$ 的特征映射，记 $\LARGE \begin{align*} J_{1}(dx)&=J_{1}(u)=\frac{\partial (\frac{1}{n}(x\star x)+\lambda \delta )}{\partial x}u \\ &=\frac{1}{n}(dx\star x +x\star dx ) \end{align*}$ ， $\LARGE v=dk$ ，对式（41）做傅里叶变换（这里设 $\LARGE \hat{x}=\hat{x}^{*}$ ）， $\LARGE J_{1}^{*}(v)=\frac{1}{n}(dk^{*}\star x+x^{*}\star dk)^{*}$ 。可得： $\small =\left \langle FJ_{1}^{*}(dk),Fdx \right \rangle =\left \langle \frac{1}{n}(\widehat{dk}^{*}\circ \widehat{x}+\hat{x}^{*}\circ \widehat{dk})^{*} ,\widehat{dx}\right \rangle =\left \langle \frac{1}{n}(\widehat{dk}\circ \widehat{x}^{*}+\hat{x}\circ \widehat{dk}^{*}) ,\widehat{dx}\right \rangle$ $\small =\left \langle \frac{2}{n}Re\left \{ \widehat{dk} \right \}\circ \hat{x},\widehat{dx} \right \rangle$ 。那么根据输入的梯度相关性，可得：。
（2）类似的，对于 $\LARGE J_{2}$ 为的特征映射，记 $\small J_{2}(dk,dy)=k^{-1}\ast \left ( \frac{1}{n}dy-dk\ast \alpha \right )$ ， $\small v=d\alpha$ ，

那么对应地，，根据输入的梯度相关性，分别得：。

（3）类似的，对于为的特征映射，记 $\small J_{3}(dx,d\alpha )=$ ， $\small v=dw$ ，

那么对应地，,根据输入的梯度相关性，分别得：。