- 博客(1)
- 收藏
- 关注
原创 CLIP(多模态大模型)
CLIP是利用文本信息训练一个可以实现zero-shot的视觉模型。被称为多模态大模型,零样本学习方法。最大的贡献在于打破了固定类别标签范式。CLIP在训练的过程中,将句子和图片匹配,然后在推理过程中找到与之最接近的模板句子。CLIP模型在训练过程中,用到了4亿组图像文本对,涵盖了自然界中的大部分场景。
2024-07-10 09:42:00 3231
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人