SRDCF公式推导

最新推荐文章于 2022-05-20 20:26:05 发布

六月的雨唯你

最新推荐文章于 2022-05-20 20:26:05 发布

阅读量2.8k

点赞数 15

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013187057/article/details/84063164

版权

计算机视觉专栏收录该内容

22 篇文章 2 订阅

订阅专栏

1 标准DCF

滤波器 $f$ 与样本 $x$ 的输出响应可 $S_f(x)=\sum_{l=1}^{d}{x^l}*{f^l}\tag{1}$ 1.*表示循环卷积
2. $\in \lbrace1,...,d\rbrace$ ， $d$ 表示样本 $x$ 的特征维数
3. $x_k^l$ 表示样本 $x_k$ 的第 $l$ 维特征
4.每个样本每个特征通道 $x^l$ 和每个通道对应的滤波器 $f^l$ 大小均为为 $M$ x $N$
$L^2$ 误差可表示为： $\varepsilon_t(f)=\sum_{k=1}^t\alpha_k||S_f(x_k)-y_k||^2+\lambda\sum_{l=1}^d||f^l||^2\tag{2}$ 1. $\alpha _k \ge 0$ 决定每个训练样本的影响(权重衰减因子，于学习率有类似作用)
2. $\lambda\ge 0$ 是正则化项的权重
3.训练样本表示为 $\lbrace(x_k,y_k)\rbrace_{k=1}^t$ ， $t$ 表示历史样本数
快速检测表示为： $S_f(z)=\mathcal F^{-1}\lbrace\sum_{l=1}^d\widehat z^l \cdot {\widehat f^l}\rbrace \tag{3}$ 1. $z$ 表示目标区域提取的特征图
2. $\widehat f^l=\mathcal F\lbrace {f^l}\rbrace$ 表示滤波器的傅里叶变换

2 SRDCF

2.1 空间正则化

为抑制边界区域的影响，给滤波器加上一个相同大小 $(M$ x $N)$ 的正则项 $w$ ，则式(2)可表示为： $\varepsilon_t(f)=\sum_{k=1}^t\alpha_k||S_f(x_k)-y_k||^2+\sum_{l=1}^d||w\cdot f^l||^2\tag{4}$ 1. $w$ 为空间正则化项，离目标区域越远越大，表示处罚越大（如：倒置的高斯分布）
2.当 $w(m,n)=\sqrt \lambda$ 时，则变为标准DCF
3. $\widehat w$ 具有稀疏特性（后面推导有用到这一性质）
4. $w\cdot f^l$ 表明正则项 $w$ 和滤波器 $f$ 是进行点乘运算的
正则项 $w$ 可视化如下图所示
为加速计算，基于帕斯瓦尔定理，将 $(4)$ 式转换到频率为： $\varepsilon_t(\widehat f)=\sum_{k=1}^t\alpha_k||\sum_{l=1}^d\widehat x_k ^l \cdot {\widehat f ^ l}-\widehat y_k||^2+\sum_{l=1}^d||\frac {\widehat w}{MN}\ast \widehat f^l||^2\tag{5}$ 1.时域的点乘 $w\cdot f^l$ 转换到频率变为卷积 $\widehat w \ast \widehat f^l$
2. $w\cdot f^l \Longleftrightarrow\frac {\widehat w}{MN}\ast \widehat f^l$ ， $M N$ 相当于周期
为方便实际计算，将 $(5)$ 式全部向量化为： $\varepsilon_t(\widehat f)=\sum_{k=1}^t\alpha_k||\sum_{l=1}^d\mathcal D(\widehat \boldsymbol x_k ^l){\widehat \boldsymbol f ^ l}-\widehat \boldsymbol y_k||^2+\sum_{l=1}^d||\frac {\mathcal C(\widehat \boldsymbol w)}{MN}\widehat \boldsymbol f^l||^2\tag{6}$ 1. $\mathcal D(\boldsymbol v)$ 表示对角线上元素为 $\boldsymbol v$ 的对角阵，大小为 $MN \times MN$
2. $\mathcal C(\widehat \boldsymbol w)$ 表示从 $\widehat \boldsymbol w$ 得到的循环矩阵， $\widehat \boldsymbol w$ 大小为 $MN\times1$ ， $\mathcal C(\widehat \boldsymbol w)$ 大小为 $MN \times MN$
3. $\widehat \boldsymbol f^l$ 和 $\widehat \boldsymbol y_k$ 的大小为 $MN \times 1$
4. $\mathcal C(\widehat \boldsymbol w) \widehat \boldsymbol f^l$ 是 $\widehat \boldsymbol w \ast \widehat \boldsymbol f^l$ 的向量化（通过循环操作可以去掉卷积符号，因为卷积的本质就是移位相乘相加）
为将所有变量转到实域来求解，作者构造了一个大小为 $MN \times MN$ 的转换矩阵 $B$ （具体构造见论文中式 $(7)$ ），如实数向量 $\widetilde \boldsymbol f^l=B\widehat \boldsymbol f^l$ ，对 $(6)$ 式全部左乘 $B$ 可得： $\begin{aligned} \varepsilon_t(\widehat f)&=\sum_{k=1}^t\alpha_k||\sum_{l=1}^d B\mathcal D(\widehat \boldsymbol x_k ^l){\widehat \boldsymbol f ^ l}-B\widehat \boldsymbol y_k||^2+\sum_{l=1}^d||\frac {B\mathcal C(\widehat \boldsymbol w)}{MN}\widehat \boldsymbol f^l||^2\\ &=\sum_{k=1}^t\alpha_k||\sum_{l=1}^d B\mathcal D(\widehat \boldsymbol x_k ^l)B^HB{\widehat \boldsymbol f ^ l}-B\widehat \boldsymbol y_k||^2+\sum_{l=1}^d||\frac {B\mathcal C(\widehat \boldsymbol w)B^H}{MN}B\widehat \boldsymbol f^l||^2\\ &=\sum_{k=1}^t\alpha_k||\sum_{l=1}^d D_k ^l{\widetilde \boldsymbol f ^ l}-\widetilde \boldsymbol y_k||^2+\sum_{l=1}^d||C\widetilde \boldsymbol f^l||^2\\ \end{aligned}\tag{7}$ 1. $B$ 是稀疏的酉矩阵，满足 $B^HB=I$
2. $B\mathcal D(\widehat \boldsymbol x_k ^l)B^H \Longleftrightarrow D_k ^l$
3. $B\widehat \boldsymbol f^l \Longleftrightarrow \widetilde \boldsymbol f^l$
4. $B\widehat \boldsymbol y_k \Longleftrightarrow \widetilde \boldsymbol y_k$
5. $\frac {B\mathcal C(\widehat \boldsymbol w)B^H}{MN} \Longleftrightarrow C$
将 $(7)$ 式进一步简化可得： $\varepsilon_t(\widetilde \boldsymbol f)=\sum_{k=1}^t\alpha_k||D_k{\widetilde \boldsymbol f}-\widetilde \boldsymbol y_k||^2+||W\widetilde \boldsymbol f||^2\tag{8}$ 1. $D_k=(D_k^1 \cdot \cdot \cdot D_k^d)$ ，大小为 $MN\times dMN$
2. $\widetilde \boldsymbol f=((\widetilde \boldsymbol f^1)^T\cdot \cdot \cdot (\widetilde \boldsymbol f^d)^T)^T$ ，大小为 $dMN\times 1$
3. $W$ 的大小为 $dMN\times dMN$ 对角块矩阵，每个对角块等于 $C$
$(8)$ 式与岭回归求解类似，求解得 $A_t\widetilde \boldsymbol f=\widetilde \boldsymbol b_t$ （具体求解参考KCF算法推导中的岭回归求解）其中： $\begin{aligned} &A_t=\sum_{k=1}^t\alpha_kD_k^TD_k+W^TW\\ &\widetilde \boldsymbol b_t=\sum_{k=1}^t\alpha_kD_k^T\widetilde \boldsymbol y_k \tag{9} \end{aligned}$

2.2 优化

由于正则化项 $W^TW$ ，破坏了标准DCF的对角块结构。直接对上式求解(需要求逆)非常耗时，作者利用 $A_t$ 的稀疏性(较少的迭代次数内到达一个收敛值)等性质，采用Gauss-Seidel方法迭代求解得到 $\widetilde \boldsymbol f$ 。
参考Gauss–Seidel迭代， $A_t$ 可分解成下三角矩阵 $L_t$ 和严格上三角矩阵 $U_t$ (不包括对角线)，即 $A_t=L_t+U_t$ 。则 $A_t\widetilde \boldsymbol f=\widetilde \boldsymbol b_t$ 可变形为： $L_t \widetilde \boldsymbol f=\widetilde \boldsymbol b_t-U_t\widetilde \boldsymbol f\tag{10}$
迭代公式如下式： $L_t \widetilde \boldsymbol f^{(j)}=\widetilde \boldsymbol b_t-U_t\widetilde \boldsymbol f^{(j-1)}\tag{11}$

2.3 训练

$A_t$ 和 $\widetilde \boldsymbol b_t$ 更新方式： $\begin{aligned} &A_t=(1-\gamma)A_{t-1}+\gamma(D_t^TD_t+W^TW)\\ &\widetilde \boldsymbol b_t=(1-\gamma)\widetilde \boldsymbol b_{t-1}+\gamma D_t^T \widetilde \boldsymbol y_t \tag{12} \end{aligned}$ 1. $\gamma \ge 0$ 表示学习率
2.第1帧： $A_1=D_1^TD_1+W^TW$ ， $\widetilde \boldsymbol b_t=D_1^T \widetilde \boldsymbol y_1$ 作为初始值
3.正则化项 $W^TW$ 可在整个跟踪过程中预先计算好
4.采用上式这种momentum更新方式由于不需要存储所有样本 $x_k$ ，可有效节省内存
5.采用固定的迭代次数 $N_{GS}$
6.上述更新方式与指数衰减权重 $\alpha _k$ 效果类似
7.第 $t$ 帧的初始值 $\widetilde \boldsymbol f_t^{(0)}=\widetilde \boldsymbol f_{t-1}^{(N_{GS})}$
对于第1帧的初始值 $\widetilde \boldsymbol f_1^{(0)}$ 通过求解 $MN \times MN$ 线性方程得到： $(\sum_{p=1}^d(D_1^P)^TD_1^P+dC^TC)\widetilde \boldsymbol f_1^{l,(0)}=(D_1^l)^T\widetilde \boldsymbol y_1（l = 1,...,d）\tag{13}$

2.4 检测—Fast Sub-grid Detection

用 $(3)$ 式来粗略估计所有网格位置的得分 $s (m, n)$ ( $m, n$ 并不是以像素为单位的，如一般HOG特征提取 cell=4 pixels)
将最大得分位置 $u^{(0)},v^{(0)})$ 作为初始估计
连续位置 $(u, v)$ 的得分 $s (u, v)$ 按下式插值，用牛顿法进行迭代，使下式最小 $s(u,v)=\frac{1}{MN}\sum_{m=0}^{M-1}\sum_{n=0}^{N-1}\widehat s(m,n)e^{i2\pi(\frac{m}{M}u+\frac{n}{N}v)}\tag{14}$ 1. $i$ 表示虚部
2.连续位置 $(u,v)\in[0,M)\times[0,N)$ 通过DFT系数的三角多项式插值得到(不太明白!!!)
每次迭代的梯度和Hessian通过分析 $(14)$ 式的微分得到，发现只要几次迭代就可以收敛
对于每个尺度单独进行迭代，使用最大的检测得分来更新目标的位置和尺度

2.5 实验

正则项 $w$ 用二次函数来构造： $w(m,n)=\mu+\eta(m/P)^2+\eta(n/Q)^2$ 1. $P\times Q$ 表示目标尺寸
2. $w$ 的最小值 $\mu=0.1$
3.正则化影响因子 $\eta=3$
4.实际上频域下的 $w$ 只有几个值有较大的幅值，如下图所示。为保证 $\widehat w$ 的稀疏特性，设置阈值来移除较小的值，结果包含约10个非零值。

5.HOG特征，cell大小为 $4\times 4$ ，特征大小为 $\times N(M=N)$
6.样本区域是目标区域的 $4^2$ 倍
7.初始尺度的样本 $M = 50$
8.学习率 $\gamma=0.025$ ，Gauss-Seidel迭代次数 $N_{GS}=4$
9.在普通台式机matlab环境下5FPS

六月的雨唯你

关注

15
点赞
踩
31

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

六月的雨唯你 CSDN认证博客专家 CSDN认证企业博客

码龄11年

104: 原创

4万+: 周排名

201万+: 总排名

59万+: 访问

: 等级

4652: 积分

96: 粉丝

298: 获赞

83: 评论

876: 收藏

私信

关注

分类专栏

最新评论

ubuntu系统使用update-alternatives 管理多版本gcc/g++
balabalayou: 感谢欧老师
KCF算法公式推导
sakihata_rimi: 和循环矩阵相乘相当于两个信号之间求循环卷积
vscode中选择Anaconda的python环境
大吉大利都吃鸡: windows 应该时ctrl+shift+p
使用barrier共享键鼠
weixin_48400489: 您好，我的报错，一直查不到哪里出了问题 [2023-11-14T19:36:09] INFO: backing off, wait=8s, failures=4 [2023-11-14T19:36:17] INFO: starting new process as privileged user [2023-11-14T19:36:17] ERROR: could not launch [2023-11-14T19:36:17] ERROR: exit code: 0 [2023-11-14T19:36:17] ERROR: failed to launch, error: 当文件已存在时，无法创建该文件。
目标跟踪方法总结
代码胚胎牛: 您好，你的VIVID数据集的资料可以发给到我的qq邮箱吗（1826879597@qq.com），你这个连接我进不去，可以吗？

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。