【开源项目推荐】这个ai追踪系统让视觉跟踪变得如此简单!

版权声明: 本文介绍的项目基开源协议。保留原作者版权声明。
原项目地址: https://github.com/yangchris11/samurai

摘要

SAMURAI是一个创新的计算机视觉追踪系统,它基于Meta最新发布的SAM 2(Segment Anything Model)模型开发。该系统通过结合运动感知内存和卡尔曼滤波器,实现了高效的零样本视觉跟踪功能,无需额外训练即可投入使用。

效果展示

黑神话:悟空

正文

Segment Anything Model 2 (SAM 2) 在物体分割任务中表现出色,但在视觉目标跟踪方面面临挑战,尤其是在处理拥挤场景中快速移动或自遮挡的物体时。此外,原始模型中的固定窗口记忆方法并未考虑选择的记忆质量,以条件下一个帧的图像特征,导致视频中的错误传播。本文介绍了 SAMURAI,这是 SAM 2 的增强适应版本,专门设计用于视觉目标跟踪。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI 有效地预测物体运动并优化掩模选择,实现了稳健、准确的跟踪,而无需重新训练或微调。SAMURAI 实时运行,并在多种基准数据集上展示出强大的零-shot 性能,展示了其在不进行微调的情况下进行泛化的能力。在评估中,SAMURAI 在成功率和精度方面相比现有跟踪器取得了显著提升,在 LaSOT-ext 上获得了 7.1% 的 AUC 增益,在 GOT-10k 上获得了 3.5% 的 AO 增益。此外,与完全监督的方法相比,它在 LaSOT 上也取得了具有竞争力的结果,强调了其在复杂跟踪场景中的稳健性及其在动态环境中实际应用的潜力。
在这里插入图片描述

系统特点

  1. 零样本学习能力

    • 直接使用SAM 2.1预训练权重
    • 无需针对特定场景进行训练
    • 快速部署和应用
  2. 先进的跟踪技术

    • 运动感知内存机制
    • 卡尔曼滤波器实时预测
    • 精确的目标定位和追踪
  3. 广泛的应用支持

    • 支持视频文件处理
    • 支持图像序列分析
    • 多种数据格式兼容
      在这里插入图片描述

技术要求

  • Python 3.10或更高版本
  • PyTorch 2.3.1以上
  • TorchVision 0.18.1以上
  • 其他依赖包:matplotlib、opencv-python等

性能表现

SAMURAI在多个视觉跟踪基准测试中展现出卓越性能:

  • LaSOT数据集
  • GOT-10K数据集
  • NeedForSpeed数据集
  • OTB-2015数据集

使用限制

  • 目前不支持网络摄像头等流媒体输入
  • 仅支持JPG格式的图像序列
  • 需要指定首帧目标边界框

SAMURAI 安装

SAM 2 需要先安装后再使用。该代码需要 python>=3.10,以及 torch>=2.3.1 和 torchvision>=0.18.1。请按照此处的说明安装 PyTorch 和 TorchVision 依赖项。您可以使用以下方法在 GPU 计算机上安装 SAM 2 的 SAMURAI 版本:

cd sam2
pip install -e .
pip install -e ".[notebooks]"

总结

SAMURAI代表了视觉跟踪领域的最新进展,其零样本学习能力和优异的跟踪性能使其成为计算机视觉应用的重要工具。该系统的开源特性也为研究人员和开发者提供了宝贵的学习和改进机会。


🎯 欢迎关注我的公众号 数字牧民-Lsk

我会定期分享:

  • 最新的计算机视觉研究进展
  • 实用的深度学习工具和框架
  • 行业应用案例分析
  • 技术干货和教程

扫描下方二维码,一起探索AI的无限可能!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Albert_Lsk

今天又能喝柠檬茶啦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值