把“跟踪一切“搬到无人机上!MIT联合哈佛大学提出开放环境下的实时跟踪模型FAn

文章链接: https://arxiv.org/abs/2308.05737
代码仓库: https://github.com/alaamaalouf/FollowAnything

目标检测和目标跟踪对于机器人、具身智能智能体而言都非常重要,它们共同构成了机器人系统的基础外部感知单元。近来,以Segment Anything(SAM)为代表的感知一切算法登上了计算机视觉的舞台,并且引发了广泛的关注。

本文介绍一篇MIT和哈佛大学合作完成的研究论文,提出了一种实时检测、跟踪和跟随任何物体的机器人系统,被称为“follow everything”(FAn)。与SAM类似,FAn是一种开放词汇和多模态模型,其不限于参与训练的样本类别,可以在推理时根据输入的文本、图像或者以鼠标交互的方式来点击跟踪视频中的目标。为了实现这种效果,作者在FAn引入了CLIP、DINO和SAM等基础视觉语言大模型,在输入视频序列中查询和匹配跟踪目标的分割mask和边界框,同时作者还对跟踪过程中受物体遮挡和画面质量影响的目标进行了后处理

下面视频展示了FAn部署在无人机上对地面车辆的跟踪效果,当车辆被其他物体遮挡丢失目标后,FAn可以迅速的实现二次检测和跟踪。考虑到FAn系统的落地实用性,作者对其做了专门的轻量化处理,FAn可以在微型无人机(MAV)和轻量级的笔记本显卡(显存为6-8GB)上进行流畅部署,可以达到6-20fps的实时跟踪效果。

动图封面

动图封面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值