大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍这几年AIGC火爆的隐藏功臣,多模态模型:BLIP。
BLIP(Bootstrapping Language-Image Pre-training)
BLIP 是旨在改进图像-文本联合学习的效率多模态模型,特别是通过生成任务和对比学习结合的方式,在低监督甚至无监督情况下提升模型性能。BLIP 的创新点在于它通过多任务预训练和自引导学习(bootstrapping)机制,能够以更少的数据达到更好的性能表现。
BLIP 主要用于处理图像与文本的多模态任务,例如图像描述生成、文本到图像的检索、