Real-time visual tracking by deep reinforced decision making学习笔记

Real-time visual tracking by deep reinforced decision making学习笔记

1.拟解决问题

  目标跟踪中,目标模板的不可预测和剧烈变化的解决方法主要是模板更新等,而模板的不准确和错误更新会导致跟踪器漂移,因此作者提出了一种基于强化学习的模板选择策略。

2.算法详解

2.1 网络模型

在这里插入图片描述
  这个模型分为两个部分,第一部分是一个匹配网络,它通过在给定搜索图像中定位目标模板来生成预测热图;第二部分是一个策略网络,生成从匹配网络获得的预测图的归一化分数。

其中匹配网络的详细结构:
在这里插入图片描述

2.2 跟踪算法的整体流程

在这里插入图片描述
下面我简单说明一下上面的流程:
(1)搜索图片的获取:论文中提到作者使用的是使用模型预测得到的边界框信息对搜索图片进行裁剪,中心点位置不变,尺度增大2倍。
(2)模板的获取:作者使用的是设置了一个模板池,给定模板池的大小,在大小限制下,每一帧跟踪后,将预测得到的目标按照先进先出的思想更新模板池。
(3)搜索图像的偏移:分别按照上下左右四个方向进行偏移,x、y轴的偏移量分别与目标的长宽成固定比例。

2.3 强化学习部分

在这个算法中,作者使用的是策略梯度算法。

状态:跟踪过程中获得的模板与搜索图片经过匹配网络获得的预测热图的整体组合。
动作:从模板池中选择一个模板在搜索帧中定位目标。
奖励:追踪事件的成功或失败,跟踪器成功跟踪目标,产生超过预定义阈值的边界框重叠分数时,将给予正奖励;当追踪器因执行一连串糟糕的动作而失去目标时,将给予负奖励。

2.4 策略网络的训练

整体流程:
在这里插入图片描述
这里我将针对上图做一些说明,
(1)这个算法采用了累计梯度的方式来训练策略网络,因此上图中eq.2如下定义,
在这里插入图片描述
其中L是一个跟踪视频序列的帧数, β ∈ ( 0 , 1 ] \beta \in(0,1] β(0,1]是一个折扣率,更早的梯度拥有更小的权重。
(2)经验回放在保存的时候需要分别保存成功经验和失败经验。
(3)在每一个训练步骤中,累计梯度是5L的梯度的和,也就是5个跟踪序列中梯度的和。在每一个视频跟踪序列后,需要使用4L个梯度再次进行梯度更新,而4L中包含2L个成功经验和2L个失败经验。

3.实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: MediaPipe Hands是一种基于设备的实时手部追踪技术。它是由Google开发的计算机视觉库MediaPipe的一部分,旨在通过摄像头捕捉的视频流对手部进行准确的实时追踪。 Mediapipe Hands利用了深度学习模型和机器学习算法,能够识别视频中出现的双手,并对它们的位置和手势进行跟踪。这项技术可以应用在许多领域,包括虚拟现实、增强现实、手势识别和手势控制等。例如,在游戏中,可以使用Mediapipe Hands实时追踪玩家的手势,将其转化为虚拟角色在游戏中进行相应的动作。 Mediapipe Hands的一个显著特点是其在设备上的实时性能。相比于传统的手部追踪方法,Mediapipe Hands能够在保持高准确性的同时,实现实时的处理和反馈。这得益于其优化的模型架构和高效的计算算法。作为一种基于设备的解决方案,Mediapipe Hands无需依赖云端服务或高性能硬件,可以在较低功耗和资源受限的设备上运行。 此外,Mediapipe Hands还支持多个手势的识别和跟踪。它可以检测手的位置、边界框、手指的位置和手势类别,例如拇指的弯曲、手掌的张开和手势的连续跟踪。这种多样性使Mediapipe Hands成为一个强大而灵活的工具,适用于不同的视觉和交互应用。 总之,Mediapipe Hands是一种基于设备的实时手部追踪技术,具有高准确性、低延迟和多功能的特点。它为虚拟现实、增强现实、手势识别和控制等应用领域提供了一种简单而可靠的解决方案。 ### 回答2: MediaPipe Hands是一个由Google开发的机器学习技术,用于在设备上实现实时手部追踪。它基于深度学习模型,可以从设备的摄像头中识别和跟踪手部的动作和位置。 Mediapipe Hands使用的模型经过训练,可以识别手部的21个关键点,包括手指的关节和指尖。它可以在设备上实时分析摄像头捕捉到的图像,并进行准确的手部追踪。这种技术可以用于手势识别、手势控制和虚拟现实等应用领域。 相比于传统的基于云端的手部追踪技术,Mediapipe Hands的优势在于其实时性和隐私性。由于模型是在设备本地运行,不需要依赖于云端的计算资源,因此可以实现即时的反馈和交互。同时,所有的图像和手部数据都在设备上进行处理,保护了用户的隐私。 除了实时追踪手部的动作和位置外,Mediapipe Hands还可以提供手势识别的功能。通过识别手部的动作和位置,它可以判断用户是点击屏幕、捏取物体还是做出其他手势。这种手势识别能够为用户提供更自然、直观的交互体验,并且可以被广泛应用于手机、平板电脑、AR/VR设备等不同类型的设备上。 总之,Mediapipe Hands是一项强大的机器学习技术,能够在设备上实现实时的手部追踪和手势识别。它为用户提供了更直观、自然的交互体验,并且保护了用户的隐私。这项技术具有广泛的应用潜力,可以用于各种不同的设备和场景。 ### 回答3: Mediapipe Hands是一项在设备上实时手部追踪技术,由谷歌开发。它利用神经网络模型和计算机视觉技术,能够精确地检测和跟踪人手的动作和姿势。 这项技术主要适用于在移动设备和嵌入式系统上进行手部追踪。相比于传统的云端追踪方案,Mediapipe Hands使用了高效的计算机视觉算法,能够在设备本地实时进行处理,无需依赖云端网络服务,有效提高了实时性和隐私性。 利用Mediapipe Hands技术,用户可以通过摄像头捕捉手部的位置和动作,实现手势识别、手势控制等功能。这项技术可以广泛应用于移动游戏、虚拟现实、增强现实、手势交互和人机界面等领域。 Mediapipe Hands的优势在于其快速准确的手部追踪能力。它能够将手部的关键点(如手指、掌心等)精确地识别和跟踪,实现高精度的手部姿势估计。而且,由于是在设备上进行实时处理,其响应速度非常快,可以满足实时交互的需求。 总体而言,Mediapipe Hands是一项在设备上实时追踪手部动作和姿势的技术。它的应用范围广泛,可以用于移动设备和嵌入式系统,提供高精度的手部追踪功能,为用户带来更加现实、交互友好的体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值