论文信息
题目:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
PSALM:基于大型多模态模型的逐像素分割
作者:Zheng Zhang, Yeyao Ma, Enming Zhang, Xiang Bai
源码:https://github.com/zamling/PSALM
论文创新点
- 模型架构的创新:PSALM通过在大型多模态模型(LMM)之上外化一个掩码解码器,并设计了一个灵活的输入模式,将不同的分割任务统一到一个单一模型中。这种设计使得模型能够处理包括图像、任务指令、条件提示和掩码标记在内的多样化输入,有效地生成和分类分割掩码。
- 灵活的输入模式:PSALM的输入模式包括四部分:图像、任务指令提示、条件提示和掩码标记。这种设计使得模型能够灵活地适应不同的分割任务,包括语义分割、实例分割和泛化分割等,同时支持