一、基本信息
标题:《Integrating Stereo Vision with a CNN Tracker for a Person-Following Robot
Bao》
时间:2017
出版源:Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)
论文领域:CNN tracker, person following robot, tracking, stereo vision
主要链接:
homepage:None
arXiv(Paper):None
github:None
二、研究背景
跟随机器人的人有很多应用,比如杂货店里的自动推车[26],医院里的个人向导,或者机场里的自动手提箱[1]。动态环境下跟随机器人的人需要解决不同挑战性情况下的跟踪问题(外观变化、光照变化、遮挡、蹲姿、换衣等姿势变化)。利用在线卷积神经网络(CNN)对不同情况下的给定目标进行跟踪。被跟踪的目标可能会在拐角处移动,使其从机器人的视野中消失。我们通过计算目标最近的姿态来解决这个问题,当目标在当前帧中不可见时,让机器人复制目标的本地路径。正在使用的机器人是一个配备了立体声摄像机的先锋3AT机器人。我们用两台立体声摄像机测试了我们的方法,分别是Point Grey bumblebee21和ZED立体声摄像机。
三、创新点
3.1 概述
(1)利用实时训练的CNN(约20fps)利用RGB图像和立体深度图像进行跟踪的人跟踪机器人应用
(2)机器人估计和复制目标的局部路径,即使人暂时不在摄像机视野内也能跟踪人的机器人跟踪行为
(3)一种新颖的用于人员跟踪任务的立体数据集。
3.2 详解方法
在这里,描述了提出的CNN模型和学习过程。CNN的输入是RGB通道,从立体图像计算深度,称之为RGBSD (RGB- stereo depth)。立体深度(SD)是使用ZED SDK3计算的。CNN跟踪器输出目标的深度和质心。机器人的导航模块使用深度和质心来跟踪目标并在需要时复制路径。
3.2.1CNN models with RGBSD images
-
第一个模型(CNN v1)使用RGBSD层作为单个图像来馈送ConvNet。与传统CNN架构类似,网络包含卷积层、完全连接层和输出层(见图1)。
-
第二个模型(CNN v2)使用2个卷积流,输入是一个流的RGB通道,另一个流的输入是立体深度图像(见图1)。在完全连接层中,输入是来自这两个卷积流的平坦输出的组合。
-
第三个ConvNet(CNN v3)是一个基于常规RGB图像的CNN。它的结构与第一个模型相似。现在我们描述我们初始化和更新CNN跟踪器的方法。
初始训练集选择:为了使用CNN模型来跟踪一个人,我们必须初始化CNN分类器。初始化是使用随机权重从头开始的。
(1)在第一帧的中心放置一个预定义的矩形边界框。要激活机器人跟随行为,必须有人站在距离机器人一定距离的包围盒内,或者可以手动选择要跟踪的目标。(2)一旦CNN被激活,边界框中的patch将被标记为class 1。边界框周围的面片被标记为class 0。
(3)由于这两个类是高度不平衡的,我们从0类中统一选择n个补丁