版权声明: 本文介绍的项目基开源协议。保留原作者版权声明。
原项目地址: https://github.com/yangchris11/samurai
摘要
SAMURAI是一个创新的计算机视觉追踪系统,它基于Meta最新发布的SAM 2(Segment Anything Model)模型开发。该系统通过结合运动感知内存和卡尔曼滤波器,实现了高效的零样本视觉跟踪功能,无需额外训练即可投入使用。
效果展示
黑神话:悟空
正文
Segment Anything Model 2 (SAM 2) 在物体分割任务中表现出色,但在视觉目标跟踪方面面临挑战,尤其是在处理拥挤场景中快速移动或自遮挡的物体时。此外,原始模型中的固定窗口记忆方法并未考虑选择的记忆质量,以条件下一个帧的图像特征,导致视频中的错误传播。本文介绍了 SAMURAI,这是 SAM 2 的增强适应版本,专门设计用于视觉目标跟踪。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI 有效地预测物体运动并优化掩模选择,实现了稳健、准确的跟踪,而无需重新训练或微调。SAMURAI 实时运行,并在多种基准数据集上展示出强大的零-shot 性能,展示了其在不进行微调的情况下进行泛化的能力。在评估中,SAMURAI 在成功率和精度方面相比现有跟踪器取得了显著提升,在 LaSOT-ext 上获得了 7.1% 的 AUC 增益,在 GOT-10k 上获得了 3.5% 的 AO 增益。此外,与完全监督的方法相比,它在 LaSOT 上也取得了具有竞争力的结果,强调了其在复杂跟踪场景中的稳健性及其在动态环境中实际应用的潜力。
系统特点
-
零样本学习能力
- 直接使用SAM 2.1预训练权重
- 无需针对特定场景进行训练
- 快速部署和应用
-
先进的跟踪技术
- 运动感知内存机制
- 卡尔曼滤波器实时预测
- 精确的目标定位和追踪
-
广泛的应用支持
- 支持视频文件处理
- 支持图像序列分析
- 多种数据格式兼容
技术要求
- Python 3.10或更高版本
- PyTorch 2.3.1以上
- TorchVision 0.18.1以上
- 其他依赖包:matplotlib、opencv-python等
性能表现
SAMURAI在多个视觉跟踪基准测试中展现出卓越性能:
- LaSOT数据集
- GOT-10K数据集
- NeedForSpeed数据集
- OTB-2015数据集
使用限制
- 目前不支持网络摄像头等流媒体输入
- 仅支持JPG格式的图像序列
- 需要指定首帧目标边界框
SAMURAI 安装
SAM 2 需要先安装后再使用。该代码需要 python>=3.10,以及 torch>=2.3.1 和 torchvision>=0.18.1。请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。您可以使用以下方法在 GPU 计算机上安装 SAM 2 的 SAMURAI 版本:
cd sam2
pip install -e .
pip install -e ".[notebooks]"
总结
SAMURAI代表了视觉跟踪领域的最新进展,其零样本学习能力和优异的跟踪性能使其成为计算机视觉应用的重要工具。该系统的开源特性也为研究人员和开发者提供了宝贵的学习和改进机会。
🎯 欢迎关注我的公众号 数字牧民-Lsk
我会定期分享:
- 最新的计算机视觉研究进展
- 实用的深度学习工具和框架
- 行业应用案例分析
- 技术干货和教程
扫描下方二维码,一起探索AI的无限可能!