扎克伯格与黄仁勋共同展示Meta最新版的视觉AI模型Segment Anything 2

Meta 公司去年推出的机器学习模型Segment Anything 一炮打响,该模型可以快速、可靠地识别并勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格(Mark Zuckerberg)周一在 SIGGRAPH 大会上首次公布了新版,将该模型应用到了视频领域。

在这里插入图片描述
分割是一个专业术语,是指视觉模型观察图片并找出其中的部分:希望是"这是一只狗,狗后面是一棵树",而不是"这是一棵从狗身上长出来的树"。这一过程已经持续了几十年,但最近变得更好更快了,其中"Segment Anything"是一大进步。

Segment Anything 2(SA2)是一个后续模型,因为它不仅适用于静态图像,还适用于视频。"科学家们用这些东西来研究珊瑚礁和自然栖息地之类的东西。"扎克伯格在与 NVIDIA 首席执行官黄仁勋(Jensen Huang)的对话中说:“但是,能够在视频中做到这一点,而且是零拍摄,并告诉它你想要什么,这就很酷了。”

处理视频对计算要求更高,SA2 仍然是一个需要大量硬件才能运行的庞大模型,但快速、灵活的分割在一年前几乎是不可能的。

在这里插入图片描述
这种模式将和第一种模式一样,是开放和免费使用的,目前还没有托管版本的消息,而这些人工智能公司有时会提供托管版本。但有一个免费的演示版

当然,这样的模型需要大量数据来训练,Meta 还发布了一个包含 50000 个视频的大型注释数据库,它就是为此目的而创建的。在描述 SA2 的论文中,另一个包含 10 万多个"内部可用"视频的数据库也被用于训练,但这个数据库并没有公开–我已经要求 Meta 提供更多信息,说明这是什么,以及为什么没有公开。(我们猜测这些视频来自 Instagram 和 Facebook 的公开资料)。

在这里插入图片描述
几年来,Meta 一直是"开放"人工智能领域的领军者,尽管事实上(正如扎克伯格在对话中所说),它很早就开始这样做了,并推出了 PyTorch 等工具。但最近,LLaMa、Segment Anything 和它免费发布的其他一些模型,已经成为这些领域人工智能性能的一个相对可及的标准,尽管它们的"开放性"还有待商榷。

扎克伯格还提到了Meta 公司开放技术的意义:“这不仅仅是一个软件,你需要一个围绕它的生态系统。如果我们不开放源代码,它甚至都不会运行得那么好,对吗?我们这么做并不是因为我们是利他主义者,尽管我认为这对生态系统会有帮助,我们这么做是因为我们认为这会让我们正在构建的东西变得最好。”

点击此处查看 GitHub

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值