论文链接:https://arxiv.org/abs/2312.00648
代码仓库:https://github.com/gkakogeorgiou/spot
要解决的问题:
- 如何提高编码器生成的slot对应的注意力掩码质量,使得每个Slot能够更好地聚焦于单个目标物体。
- 增强解码器在重构图像时利用slot信息的效率,避免过度依赖输入序列本身,从而提高模型的鲁棒性。
贡献:
遵循先前的Slot-based auto-encoder架构,使用自训练蒸馏的方法,可以解码器产生的注意力掩码信息递给编码器,以增强编码器生成的 slot 向量和对应注意力掩码的对象特异性。