论文链接:https://openreview.net/forum?id=uK4TYkVBJG 核心点:通过中间预测的mask 来得到mask、point、box prompt,以实现不依赖外部手工prompt