Recurrent Filter Learning for Visual Tracking(RFL)论文笔记

aaon22357

于 2018-07-29 17:17:10 发布

阅读量1.2k

点赞数 1

文章标签： target-tracking Deep

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaon22357/article/details/81272852

版权

这是一篇ICCV2017的文章，文章条理清晰，通俗易懂，做以总结如下~ 本人小菜鸟一个，水平有限，如有错误恳请指正。

第一次写博客，格式可能不够完美，望海涵~

【亮点】

加了LSTM，既保留了目标空间位置信息，也保留了时序信息。offline训练结束后，在线过程不再需要微调，降低了时间复杂度，速度快。

Exemplar image是一直在变化的，LSTM的状态也是实时更新的，相对于SiamFC（Fully-Convolutional Siamese Networks for Object Tracking，全程都是以第一帧作为模板）来讲有更好的适应性。

【用到的一些小Tricks】

（1）conv LSTM的初始状态是使用第一帧图像来进行的，而不是直接置零（实验证明了该tips将成功率提高了8-10%）

（2）SCNN和ECNN的参数不共享（实验证明了共享参数后效果很差）

（3）normal LSTM中filter的尺寸是1*1，本文将其改成了3*3*1024（除了output layer仍是1*1*256），Figure 5证明了效果确实提升了。

目标尺度的确定：采用缩放搜索图像金字塔，SCNN划过它产生三个不同尺度的response map，取效果最好的那个尺度作为最终尺度，而且response map还加了余弦窗处理。

（4）目标位置的确定：取了前k个高分的response map做平均，作为最终的目标位置。

【Mark】分类和跟踪任务的区别：
分类任务具有类内不变性（只需要区分狗这个类别即可，不需要区分白狗还是黑狗）而跟踪任务的目标是识别出每个特定的目标，是针对个体而言的，所以需要区分白狗和黑狗。

网络结构

RFL的结构

流程：

（1）第t步时，E-CNN从exemplar图像中捕获目标，生成exemplar feature map e_t，和上一步的状态C_t-1和h_t-1共同输入conv LSTM，更新当前状态C_t和h_t，

（2）目标滤波器f_t是由h_t经过一个output layer产生的，

（3）S- CNN从搜索图像（下一帧的图像）中提取特征S-t+1，它与f_t卷积产生响应图，用来定位目标。

【注意】

（1）SCNN的网络结构相同，但是参数不同，而且输入图像尺寸不同（ECNN的输入尺寸是127*127，为了获取更加精确的定位）

（2）每一个linear convolution后面都有一个Batch normalization为了加速收敛。

（3）每一个卷积层（除了conv5）后面都有RELU。

Convolutional LSTM的结构

状态的初始化

原理图见Figure 3，应用首帧图像进行。

Loss Function

在Figure1上的response map（17*17）上训练损失函数，损失函数是element-wise sigmoid cross-entropies

离线训练

从训练序列中采样N+1帧，其中1~N帧作为object exemplars，2~N+1帧作为搜索图像，样例图像和搜索图像都是以目标为中心进行中心裁剪后的图像，但是裁剪比例不一样（样例图像是目标大小的2倍，搜索图像是目标大小的4倍）。

由于使用的全卷积网络，具有平移不变性，所以以中心目标图像进行训练就已经足够了（不需要再对图像进行平移等操作扩充数据量了）

Online Tracking

不需要微调，直接使用双三次插值对response map进行上采样，选择value最大的地方作为目标中心位置。

为了考虑到不同尺度变化，使用图像金字塔生成三个尺度的response map，再把他们resize到相同的尺寸（和输入图像一样大的尺寸），计算每个response map的值（R^m），选择值最大的那个响应图作为最终预测的目标尺度。

最终预测目标的位置：对值最大的前k个response map的位置做平均

更新：

对预测的目标进行裁剪，然后输入Figure 3更新LSTM的状态，产生新的object filter，用来和下一帧的特征图做卷积，以产生新的响应图

完整的算法流程（很清晰很完整）

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
Recurrent Filter Learning for Visual Tracking(RFL)论文笔记

这是一篇ICCV2017的文章，文章条理清晰，通俗易懂，做以总结如下~ 本人小菜鸟一个，水平有限，如有错误恳请指正。第一次写博客，格式可能不够完美，望海涵~ 【亮点】加了LSTM，既保留了目标空间位置信息，也保留了时序信息。offline训练结束后，在线过程不再需要微调，降低了时间复杂度，速度快。Exemplar image是一直在变化的，LSTM的状态也是实时更新的，相对于...
复制链接

扫一扫

aaon22357 CSDN认证博客专家 CSDN认证企业博客

码龄7年

173: 原创

3万+: 周排名

8万+: 总排名

63万+: 访问

: 等级

5983: 积分

108: 粉丝

296: 获赞

170: 评论

1137: 收藏

私信

关注

热门文章

分类专栏

最新评论

linux手动安装 vscode-server
CSDN-Ada助手: CS入门技能树或许可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
ubuntu配置nvidia显卡性能
不加盐: 请问RTX 4090还支持这样操作吗？我试了没有这么多选项，只有Thermal Settings和Application Profiles这两个选项，怎么能调到P0呢？或者说让它固定在P0状态呢？
解决vs资源管理器不显示头文件源文件
BABY APRIL: 我折腾了两天。。。
Windows Powershell配置及美化教程
CSDN-Ada助手: 非常感谢CSDN博主的分享，这篇博客真的很实用！我觉得下一篇博客可以写一下关于Windows系统上一些实用的命令行工具的使用技巧，比如说ping、tracert、netstat等等，这样的技术文章对其他用户肯定也会非常有帮助。相信CSDN博主一定有更多的技术经验和心得体会，期待更多的精彩文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
ubuntu安装I219-LM网卡驱动
laidone: make:command not found

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。