把“跟踪一切“搬到无人机上！MIT联合哈佛大学提出开放环境下的实时跟踪模型FAn

TechBeat人工智能社区

于 2023-09-12 12:00:00 发布

阅读量1k

点赞数

分类专栏：技术文章文章标签：计算机视觉机器人目标跟踪

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hanseywho/article/details/132795501

版权

文章链接： https://arxiv.org/abs/2308.05737
代码仓库： https://github.com/alaamaalouf/FollowAnything

目标检测和目标跟踪对于机器人、具身智能智能体而言都非常重要，它们共同构成了机器人系统的基础外部感知单元。近来，以Segment Anything（SAM）为代表的感知一切算法登上了计算机视觉的舞台，并且引发了广泛的关注。

本文介绍一篇MIT和哈佛大学合作完成的研究论文，提出了一种实时检测、跟踪和跟随任何物体的机器人系统，被称为“follow everything”（FAn）。与SAM类似，FAn是一种开放词汇和多模态模型，其不限于参与训练的样本类别，可以在推理时根据输入的文本、图像或者以鼠标交互的方式来点击跟踪视频中的目标。为了实现这种效果，作者在FAn引入了CLIP、DINO和SAM等基础视觉语言大模型，在输入视频序列中查询和匹配跟踪目标的分割mask和边界框，同时作者还对跟踪过程中受物体遮挡和画面质量影响的目标进行了后处理。

下面视频展示了FAn部署在无人机上对地面车辆的跟踪效果，当车辆被其他物体遮挡丢失目标后，FAn可以迅速的实现二次检测和跟踪。考虑到FAn系统的落地实用性，作者对其做了专门的轻量化处理，FAn可以在微型无人机（MAV）和轻量级的笔记本显卡（显存为6-8GB）上进行流畅部署，可以达到6-20fps的实时跟踪效果。

动图封面

动图封面

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。