论文总结《Integrating Stereo Vision with a CNN Tracker for a Person-Following Robot Bao》

一、基本信息

标题:《Integrating Stereo Vision with a CNN Tracker for a Person-Following Robot
Bao》

时间:2017

出版源:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)

论文领域:CNN tracker, person following robot, tracking, stereo vision

主要链接:

homepage:None

arXiv(Paper):None

github:None

二、研究背景

跟随机器人的人有很多应用,比如杂货店里的自动推车[26],医院里的个人向导,或者机场里的自动手提箱[1]。动态环境下跟随机器人的人需要解决不同挑战性情况下的跟踪问题(外观变化、光照变化、遮挡、蹲姿、换衣等姿势变化)。利用在线卷积神经网络(CNN)对不同情况下的给定目标进行跟踪。被跟踪的目标可能会在拐角处移动,使其从机器人的视野中消失。我们通过计算目标最近的姿态来解决这个问题,当目标在当前帧中不可见时,让机器人复制目标的本地路径。正在使用的机器人是一个配备了立体声摄像机的先锋3AT机器人。我们用两台立体声摄像机测试了我们的方法,分别是Point Grey bumblebee21和ZED立体声摄像机。

三、创新点

3.1 概述

(1)利用实时训练的CNN(约20fps)利用RGB图像和立体深度图像进行跟踪的人跟踪机器人应用
(2)机器人估计和复制目标的局部路径,即使人暂时不在摄像机视野内也能跟踪人的机器人跟踪行为
(3)一种新颖的用于人员跟踪任务的立体数据集。

3.2 详解方法

在这里,描述了提出的CNN模型和学习过程。CNN的输入是RGB通道,从立体图像计算深度,称之为RGBSD (RGB- stereo depth)。立体深度(SD)是使用ZED SDK3计算的。CNN跟踪器输出目标的深度和质心。机器人的导航模块使用深度和质心来跟踪目标并在需要时复制路径。
在这里插入图片描述

3.2.1CNN models with RGBSD images

  • 第一个模型(CNN v1)使用RGBSD层作为单个图像来馈送ConvNet。与传统CNN架构类似,网络包含卷积层、完全连接层和输出层(见图1)。

  • 第二个模型(CNN v2)使用2个卷积流,输入是一个流的RGB通道,另一个流的输入是立体深度图像(见图1)。在完全连接层中,输入是来自这两个卷积流的平坦输出的组合。

  • 第三个ConvNet(CNN v3)是一个基于常规RGB图像的CNN。它的结构与第一个模型相似。现在我们描述我们初始化和更新CNN跟踪器的方法。
    在这里插入图片描述
    初始训练集选择:为了使用CNN模型来跟踪一个人,我们必须初始化CNN分类器。初始化是使用随机权重从头开始的。
    (1)在第一帧的中心放置一个预定义的矩形边界框。要激活机器人跟随行为,必须有人站在距离机器人一定距离的包围盒内,或者可以手动选择要跟踪的目标。

    (2)一旦CNN被激活,边界框中的patch将被标记为class 1。边界框周围的面片被标记为class 0。

    (3)由于这两个类是高度不平衡的,我们从0类中统一选择n个补丁

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

被窝里的奶油卷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值