Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

最新推荐文章于 2022-12-27 14:46:12 发布

a1424262219

最新推荐文章于 2022-12-27 14:46:12 发布

阅读量393

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/wangxiaocvpr/p/6391221.html

版权

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

arXiv

　　摘要：本文提出了一种 DRL 算法进行单目标跟踪，算是单目标跟踪中比较早的应用强化学习算法的一个工作。

　在基于深度学习的方法中，想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的。

　尽管最近的 CNN based tracker 也取得了不错的效果，但是，其性能局限于：

　　1. Learning robust tracking features ；

　　2. maximizing long-term tracking performance ---->>> without taking coherency and correlation into account.

　　

　　本文的创新点在于：

　　1. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示以及多帧图像之间的时序上的表示；

　　　得到的特征可以更好的捕获 temporal information，并且可以直接应用到跟踪问题上；

　　2. 我们的框架是端到端的进行训练的 deep RL algorithm，模型的目标是最大化跟踪性能；

　　3. 模型完全是 off-line的；

　　

　　

　　Tracking Framework ：

　　

　　

　　本文提出的 Deep RL 算法框架，由三个部分构成：

　　1 CNN 特征提取部分；

　　2 RNN 历史信息构建部分；

　　3 DEEP RL 模块

　　前两个部分没什么要说的，就是简单的 CNN, LSTM 结构。

　　第三个 RL 部分：

　　说到底，这个文章是在之前 attention model based Tracker ICLR 2016 年的一个文章基础上做的。

　　RL 部分就是没有变换，直接挪过来的。

　　状态，是跟踪视频的 frame ；

　　动作，是多变量高斯分布得到的 predicted location；

　　奖励，是 scalar reward signal, 定义为：$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ，lt 是RL单元的输出，gt 是时刻 t 的 gt ；

　　　　　avg() 是给定矩阵的 mean value； max() 是计算给定元素的最大值。

　　

　　训练的目标是最大化奖励信号 R。

　　

　　学习的目标函数为：

　　

　　其中，p(z1:T; W) 是可能交互的分布，参数化为 W （the distribution over possible interactions parameterized by W）.

　　

　　上述函数涉及到 an expectation over high-dimensional interactions，以传统的监督方法来解决是非常困难的。

　　利用 RL 领域中的 REINFORCE algorithm 进行近似求解。

　　

转载于:https://www.cnblogs.com/wangxiaocvpr/p/6391221.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。