文章链接: https://arxiv.org/abs/2308.05737
代码仓库: https://github.com/alaamaalouf/FollowAnything
目标检测和目标跟踪对于机器人、具身智能智能体而言都非常重要,它们共同构成了机器人系统的基础外部感知单元。近来,以Segment Anything(SAM)为代表的感知一切算法登上了计算机视觉的舞台,并且引发了广泛的关注。
本文介绍一篇MIT和哈佛大学合作完成的研究论文,提出了一种实时检测、跟踪和跟随任何物体的机器人系统,被称为“follow everything”(FAn)。与SAM类似,FAn是一种开放词汇和多模态模型,其不限于参与训练的样本类别,可以在推理时根据输入的文本、图像或者以鼠标交互的方式来点击跟踪视频中的目标。为了实现这种效果,作者在FAn引入了CLIP、DINO和SAM等基础视觉语言大模型,在输入视频序列中查询和匹配跟踪目标的分割mask和边界框,同时作者还对跟踪过程中受物体遮挡和画面质量影响的目标进行了后处理。
下面视频展示了FAn部署在无人机上对地面车辆的跟踪效果,当车辆被其他物体遮挡丢失目标后,FAn可以迅速的实现二次检测和跟踪。考虑到FAn系统的落地实用性,作者对其做了专门的轻量化处理,FAn可以在微型无人机(MAV)和轻量级的笔记本显卡(显存为6-8GB)上进行流畅部署,可以达到6-20fps的实时跟踪效果。