【小白笔记】RTINet:Joint Representation and Truncated Inference Learning forCorrelationFilterbasedTracking



这是ECCV18的一篇文章,悄悄更新一波国人的大作。 论文地址
该论文主要是将BACF网络化,得到了top的性能,有不对的地方欢迎讨论~


1.主要贡献

1.把BACF改造成了一个神经网络结构,可以进行端到端的训练;
2.求解BACF的核心ADMM优化部分作者用网络的形式和截断推理的方法表示了出来,作者详细推导了梯度反传的部分;
3.由于是CNN和BACF的结合,在性能上RTINet和ECO已经相当了。

2. 基本方法

2.1BACF

BACF是ICCV2017的文章,性能可以说是基于传统特征的最好的算法了,速度能达到35FPS,详情见我的一篇博客,BACF的思路不难理解,代码也比较简单,难的是求解的过程。它的求解使用了ADMM方法迭代求解,同时使用了FFT的方法在频域加速计算。实际计算中迭代步骤只需要两步就可以达到不错的acurracy所以速度也不会太低。
受到CFNet的motivation,将相关滤波整合到CNN中,可以进行离线训练,达到不错的性能,所以把BACF整合到CNN中也是很自然的想法。当我们固定迭代次数的时候,也就是截断推理的思想,又由于ADMM迭代的每个子问题是有闭式解的,所以把ADMM的求解过程展开是可以将其网络化的,最近网络化的文章很多,也是一个趋势。
最后作者把特征提取网络和截断求解网络一起学习就构成了RTINet的整体结构了。

2.2建模

输入图像为x,定义z为x经过特征提取网络得到的CNN特征。考虑相关滤波模板f的更新公式为 f t + 1 = η f ∗ + ( 1 − η ) f t \bf{f}_{t+1} = \eta \bf{f^*} + (1-\eta)\bf{f}_t ft+1=ηf+(1η)ft,重写BACF的CNN形式优化问题如下
这里写图片描述
其中关键是 f ∗ \bf{f^*} f是需要ADMM求解的,作者这里将ADMM求解过程展开,使用截断推理的思想,设迭代K次终止,这样每一步的 f ∗ \bf{f^*} f f t + 1 \bf{f}_{t+1} ft+1就可以用 f t \bf{f_t} ft z t \bf{z_t} zt y t \bf{y_t} yt表示。每一次的截断迭代的参数 λ \lambda λ M \bf M M η \eta η ρ \rho ρ在每一步的迭代中可以进行学习和更新,也就是截断推理网络部分的参数。有一点疑问是 M \bf M M在BACF中是提前计算的,这里的处理不太理解。
这样重新将优化函数和ADMM迭代部分写出来如下:
这里写图片描述
根据上式,网络结构可以自然的画出来如下:
这里写图片描述
特征提取算一步,截断求解网络算第二步,初始的 f \bf f f g \bf g g为0.特征提取的部分使用了VGG-M的前三层卷积层,每层后加ReLu和LRN,pooling层仅加在前两层。式9和10的四个式子都是可导的,因此可以BP进行和特征提取网络一起的端到端训练。

2.3模型学习

从网络结构中可以看到每一步的迭代都算一个loss,所以作者详细推到了针对迭代网络中的每一步的参数和特征提取网络的参数的梯度计算,然后用在SGD算法中进行模型的学习与更新,有空仔细看看补充材料里的详细推导。在迭代网络的每一步都进行新一步的参数学习和之前参数的fine-tuning,直到进行到第K步终止。
这里写图片描述
这里写图片描述

3.实验

训练数据使用了ILSVRC2015,每一个视频选择了目标大小合适的连续20帧进行训练,搜索域为方形的5倍目标大小,然后resize到224*224大小输入网络。
训练时,使用贪婪的思想选择最合适的迭代网络的步数k,操作时固定特征提取网络参数训练迭代网络参数,训练第k步时前k-1步参数都固定且使用第k-1步参数初始化,每一步训练50次后合起来再训50次。
具体结果很详细,进行了和CFNet的比较和消融d实验,比较关注的是BACF直接加CNN特征提升居然不大。实验上OTB15达到了68.2的AUC,速度为9fps,最佳的迭代网络步数是2,这和BACF中ADMM迭代次数一致。
这里写图片描述
有不对的地方欢迎讨论~

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
RTnet是Halmover大学开发的一个开源项目。该项目建立于2001年,它的目标是提供一个独立于硬件环境、灵活的通信平台。RTnet借鉴了Llnux的模块化设计方案,可以根据需要加载相应的模块。标准以太网中,网络节点之间的地位是平等的,为了保证数据的传输以确定的方式 进行。RTnet采用主从的方式实现以太网通信。由于TCP采用的三次握手协议会造成很大的开销,在传输层中RTnet仅使用了UDP协议来进行数据传输,在标准以太网中用 来进行动态地址转换的ARP协议,在RTnet中也改为使用静态的方式实现,在RTnet中MAC层使用时分多路访问仃DMA)策略访问媒体。在TDMA策略中网络的每一个成员只有在一个预先定义好的时间槽内才能发送实时数据。这样实时数据就能够以确定的方式发送。非实时数据可以在相对松散的时间槽内发送。在RTnet中有一个服务器节点和一个或多个客户端节点。在每个时间帧的开始,服务器节点发送一个SOF。所有的客户端节点都知道节点发送数据的时间槽与SOF的偏移量。客户端节点只有在属于自己的时间槽内才能发送数据。在RTnet中需要传输的数据包包含在发送任务的任务堆栈中,而接收的数据包首先从实时以太网驱动程序中放到一个栈管理器中,栈管理器根据数据包的协议类型。把数据送到相应的处理函数中。为了避免优先级翻转,堆栈管理器的优先级应该比所有使用RTnet服务的应用程序都要高。
动态贝叶斯网络 (Dynamic Bayesian Networks, DBN) 是一种用于建模动态系统的概率图模型。它是贝叶斯网络的扩展,可以对系统中随时间变化的变量进行建模和推断。 动态贝叶斯网络的表示建立在随时间变化的变量之间的因果关系中。它由节点和边组成,节点表示随时间变化的变量,边表示节点之间的因果关系。节点之间的连接关系可以被视为一个时间序列模型,其中每个时间步都包含一组随机变量。这种表示方法使得动态贝叶斯网络能够捕捉到系统中变量之间的动态演化。 动态贝叶斯网络可用于推断系统在给定观测值下的状态。推断是通过给定一些观测值,计算系统在给定时间步的状态的后验概率分布来进行的。这一推断过程通常基于贝叶斯定理和动态贝叶斯网络的因果关系。 动态贝叶斯网络还可以用于学习系统中的参数和结构。参数学习是指给定观测数据集,估计网络中节点之间的参数的过程。常用的方法包括最大似然估计和期望最大化算法。结构学习是指给定观测数据集,估计网络中节点之间连接关系的过程。常用的方法包括基于启发式搜索的方法和贝叶斯模型平均。 总之,动态贝叶斯网络是一种用于建模动态系统的概率图模型,它可以表示变量之间的因果关系,进行推断和学习。它在众多领域中拥有广泛的应用,如机器人学、生物学和金融学等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值