Meta SAM 2：用于视频和图像的下一代 Segment Anything 模型

最新推荐文章于 2025-01-08 17:26:08 发布

喜好儿网

最新推荐文章于 2025-01-08 17:26:08 发布

阅读量425

点赞数 9

文章标签： Meta 人工智能 AIGC

本文链接：https://blog.csdn.net/heehelcom/article/details/140796789

版权

Meta公司最近推出了一项革命性的技术——Meta Segment Anything Model 2（简称SAM 2），这是其前身SAM的升级版，专为视频和图像中的对象分割而设计。SAM 2不仅支持图像分割，还能够处理视频内容，使得对象分割技术更加先进和实用。

SAM 2的核心优势在于其能够实时提示对象分割，无论是在图像还是视频中，都能实现最先进的性能。这一技术通过Apache 2.0许可证开源，意味着任何人都可以自由地使用和构建自己的体验。为了进一步推动这一技术的发展，Meta还分享了用于构建SAM 2的数据集SA-V，该数据集包含约51,000个真实世界视频和超过600,000个掩码（时空掩码），并在CC BY 4.0许可证下发布。

喜好儿网

对象分割技术在计算机视觉领域中扮演着重要角色，它能够识别图像中与特定对象相对应的像素。SAM 2通过其统一的模型，能够分割任何视频或图像中的任何对象，即便是以前从未见过的对象和视觉域，也无需进行自定义调整。这种零样本泛化的能力，使得SAM 2在多种用例中都能展现出卓越的性能。

SAM 2的应用前景广阔。它可以与生成视频模型结合，创造出新的视频效果，推动创意应用的发展。同时，它还能加快视觉数据注释工具的构建，提升计算机视觉系统的性能。在实际应用中，SAM 2的输出可以用于视频编辑、混合现实、机器人技术、自动驾驶汽车等多个领域。

为了实现视频分割，SAM 2采用了一种统一架构，将图像分割技术扩展到视频域。它通过提示技术，将图像中的框或掩码作为输入点，定义目标对象并预测分割掩码。在视频设置中，SAM 2能够利用内存机制存储有关对象和先前用户交互的信息，从而在视频中生成连续的掩码预测。

Meta还构建了一个数据引擎，利用带有人工注释者的交互式模型在环设置，收集了庞大而多样化的视频分割数据集。这个数据集不仅在数量上超越了现有的视频对象分割数据集，而且在多样性和覆盖面上也更为广泛。SA-V数据集的亮点包括在47个不同国家/地区收集的视频，涵盖了整个对象、对象部分以及对象被遮挡、消失和重新出现的具有挑战性的实例。

总的来说，Meta SAM 2和SA-V的推出，不仅展示了Meta在人工智能领域的创新能力，也为全球AI社区提供了一个强大的工具和资源，推动了计算机视觉技术的发展和应用。