《博主简介》
小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。
✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~
👍感谢小伙伴们点赞、关注!
《------往期经典推荐------》
二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
目录
FastSAM,由中国科学院,中国科学院大学,Objecteye Inc.,武汉人工智能研究所
1. FastSAM结构
1.1. 全实例分割阶段
- 使用YOLOv8检测主干,其中YOLACT原则应用于例如分割,即YOLOv 8-seg。
- 它首先通过骨干网络和特征金字塔网络(FPN)从图像中提取特征。
- 检测分支输出类别和边界框,而分割分支输出k个原型(FastSAM中默认为32)沿着k个掩码系数。
- 分割和检测任务是并行计算的。
- 分割分支输入高分辨率特征图。该贴图通过卷积层进行处理,放大,然后通过另外两个卷积层以输出掩码。
- 与检测头的分类分支类似,掩模系数的范围在-1到1之间。实例分割的结果是通过将模板系数与原型相乘,然后将它们相加得到的。
原型和掩码系数为快速引导提供了大量可扩展性。此YOLOv 8-seg方法用于所有实例分割阶段。
1.2.引导提示阶段
- 点提示:与SAM类似,前景/背景点可以作为提示。
- 框提示:目的是通过所选框识别具有最高IoU分数的掩码,从而选择感兴趣的对象。
- 文本提示:如上所示,使用CLIP模型提取文本的相应文本嵌入。然后确定相应的图像嵌入,并使用相似性度量将其与每个掩模的固有特征相匹配。然后选择与文本提示的图像嵌入具有最高相似性分数的掩码。
1.3.数据
- 只有SAM使用的所有SA-1B数据集的1/50用于训练FastSAM模型。
2.结果
2.1.运行结果对比
虽然FastSAM生成了相对令人满意的结果,如图所示,FastSAM在速度方面在所有提示数字上都超过了SAM。此外,FastSAM的运行速度不会随着提示而改变。
2.2.零样本边缘检测
FastSAM的参数明显较少(仅68M),它生成的边缘图一般都很好。
FastSAM与SAM具有相似的性能,特别是更高的R50和更低的AP。
2.3.零拍摄对象提示分割
- 虽然其他方法都是有监督的方法,但FastSAM和SAM实现了完全零样本分割。
- FastSAM和SAM在AR@10精度下表现不佳。然而,在AR@1000中,FastSAM显著优于OLN [17]。
FastSAM大大超过SAM的计算最密集的模型SAM-HE64,超过5%。
- 然而,与在LVIS数据集上训练的ViTDet-H相比,它的性能不足。
同样,FastSAM的掩码提示生成在Recall上相对较低。
2.4.零样本实例分割
在这项任务中,FastSAM未能实现高AP。
但定性地说,FastSAM仍然可以根据文本提示很好地分割对象。
2.5.现实世界的应用
- 图7:通过前景/背景点(分别为FastSAM点中的黄色和洋红点)或框引导选择,FastSAM可以在准确的缺陷区域上进行分割。
- 图8:FastSAM在Everything模式下与SAM只有很小的区别,因为它分割了更少的与任务无关的背景对象。
- 图9:FastSAM在分割规则形状物体方面表现良好,但与SAM相比,分割出的与阴影相关的区域较少。
- 图10:在某些图像上,FastSAM甚至可以为大型物体生成更好的遮罩。
2.6.失效方面
- 低质量的小尺寸分割掩模具有大的置信度分数。
- 一些微小物体的掩模往往位于广场附近。
好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!