Meta在论文中发布了新模型Segment Anything Model(SAM),声称说可以分割一切,可以在任何图像中分割任何物体,论文链接https://arxiv.org/abs/2304.02643
大概看了一遍论文和感受了Meta提供的demo模型,我觉得主要有两个爆点,首先是收集数据的方式,加入了主动学习的形式,因为他的数据集特别大,达到了十亿组数据,那么庞大的数据不可能全部去标注,然后会通过标注一部分然后剩下一部分其他人标,最后加上人工校验部分达到一个区域闭环的效果,当数据集足够庞大时,训练出的模型效果一定就会更好,而且像GPT一样不断更新学习新的数据,模型效果会更好。这个点来说是一个很工程性但是工作量非常大的工作。第二点是有一个prompt的概念,prompt简单来说就是类似于一个“提示词”的概念,其实跟GPT现在那么火和不断提升性能的原因一样。因为ChatGPT用户会给它输入一句话或者一段话来“提示”ChatGPT如何去给出最正确的答案,SAM也同样,在demo示例上SAM首先会自动分割图像中的所有内容,但是如果你输入一个提示词的话,比如一张图片你想让SAM分割出Cat或Dog这个提示词,SAM会自动在照片中猫或者狗周围绘制框并实现分割。
剩下具体的文章内容大家可以点击文章中的链