Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

 

Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

arXiv 

 

  摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作。

   在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的。

   尽管最近的 CNN based tracker 也取得了不错的效果,但是,其性能局限于:

  1. Learning robust tracking features ;

  2. maximizing long-term tracking performance    ---->>> without taking coherency and correlation into account. 

  

  本文的创新点在于:

  1. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示 以及 多帧图像之间的时序上的表示;

    得到的特征可以更好的捕获 temporal information,并且可以直接应用到跟踪问题上;

  2. 我们的框架是端到端的进行训练的 deep RL algorithm,模型的目标是最大化跟踪性能;

  3. 模型完全是 off-line的;

  

  

  Tracking Framework :

  

 

  

 

  本文提出的 Deep RL 算法框架,由三个部分构成:

  1  CNN 特征提取部分;

  2  RNN 历史信息构建部分;

  3  DEEP RL 模块

 

  前两个部分没什么要说的,就是简单的 CNN, LSTM 结构。

  第三个 RL 部分:

  说到底,这个文章是在之前 attention model based Tracker ICLR 2016 年的一个文章基础上做的。

  RL 部分就是没有变换,直接挪过来的。

  状态,是跟踪视频的 frame ;

  动作,是 多变量高斯分布得到的 predicted location;

  奖励,是 scalar reward signal, 定义为:$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ,lt 是RL单元的输出,gt 是时刻 t 的 gt ;

     avg() 是给定矩阵的 mean value; max() 是计算给定元素的最大值。

  

  训练的目标是最大化奖励信号 R。

  

  学习的目标函数为:

  

  其中,p(z1:T; W) 是可能交互的分布,参数化为 W (the distribution over possible interactions parameterized by W). 

  

  上述函数涉及到 an expectation over high-dimensional interactions,以传统的监督方法来解决是非常困难的。

  利用 RL 领域中的 REINFORCE algorithm 进行近似求解。 

  

 

转载于:https://www.cnblogs.com/wangxiaocvpr/p/6391221.html

多智能体深度强化学习,用于群组分发中的任务卸载。 多智能体深度强化学习是一种强化学习的方法,可以应用于群组分发中的任务卸载问题。在群组分发中,有多个智能体,每个智能体都拥有一定的处理能力和任务需求。任务卸载是指将任务从一个智能体卸载到其他智能体上进行处理,以实现任务优化和系统性能的提升。 多智能体深度强化学习通过使用深度神经网络来构建智能体的决策模型,并基于强化学习框架进行智能体的训练和决策制定。在任务卸载中,每个智能体的状态可以由其当前的任务负载、处理能力和通信延迟等因素来表示。智能体的动作则是选择是否将任务卸载到其他智能体上进行处理。通过与环境交互,智能体可以通过强化学习来调整其决策策略,以优化任务卸载过程中的系统性能。 在多智能体深度强化学习中,可以使用任务奖励来指导智能体的行为。例如,当一个智能体选择将任务卸载给处理能力更高的智能体时,可以给予奖励以鼓励这种行为。同时,如果任务卸载导致较高的通信延迟或任务负载不均衡等问题,可以给予惩罚以避免这些不良的决策。 通过多智能体深度强化学习,可以实现群组分发中的任务卸载优化。智能体可以通过学习和适应来提高系统的整体性能和效率,从而实现任务分配的最优化。这种方法可以应用于各种领域,例如云计算、物联网和机器人协作等多智能体系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值