一、今日学习内容
1.【医学图像分割】Comprehensive Multimodal Segmentation in Medical Imaging Combining YOLOv8 with SAM and HQ-SAM Models
摘要:
本文介绍了一种在医学成像中分割感兴趣区域 (ROI) 的综合方法,该方法结合使用 YOLOv8 模型进行边界框检测,并结合 Segment Anything Model (SAM) 和高质量 (HQ) SAM 进行精确分割。该研究证明了该方法在各种医学成像模式中的有效性,并比较了不同模型的性能。
感想:
写的比较简单,提示框+SAM的方法确实能提高精度。本文也论证了SAM的性能比HQ-SAM好。
2.【基础模型】SAM-CLIP Merging Vision Foundation Models towards Semantic and Spatial Understanding
摘要:
本文介绍一种简单的方法,可将视觉基础模型(VFM)有效合并成一个统一的模型,吸收它们的专业知识。该方法将多任务学习、连续学习技术和教师-学生蒸馏相结合,具有比传统从头开始的多任务训练更少的计算成本,并且仅需要最初用于训练单个模型的预训练数据集的一小部分。通过将该方法应用于SAM和CLIP,我们得到SAM-CLIP:一个将SAM和CLIP的优点融合成一个单一骨干的统一模型,适用于边缘设备应用。SAM-CLIP在多个头探测任务上取得了改进的性能,并在零-shot语义分割方面建立了新的最新技术结果。
感想:
相当有技术含量的一个文章,后续有代码出来后值得研究。本文重要的贡献在于融合了文本与语义分割的映射,且性能比原始基础模型都没有明显下降,弥补了SAM在文本-分割映射的弱点。
不过其性能号称在边缘侧也能落地,没有看到相关数据。
一、今日感想
从今天开始,把感想放在文章后面,只有粉丝可以阅读。
有些话,说出来都会成为别人的把柄,何况写下来。还是谨慎点好。