多模态
文章平均质量分 93
zy_destiny
一名天天向上的程序媛
展开
-
【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型
指的是多种模态的信息,包括:文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。原创 2023-08-03 14:31:26 · 1352 阅读 · 0 评论 -
【多模态】CLIP模型详解
CLIP在不使用任意一张 ImageNet 图片训练的情况下,直接 Zero-Shot 推理,就能获得跟有监督训练的ResNet-50同样优秀的结果,这么牛的预训练模型确定不点进来看看嘛原创 2023-08-01 16:59:43 · 3670 阅读 · 3 评论 -
【多模态】ALBEF-融合前对齐
ALBEF模型详解原创 2023-08-04 16:44:12 · 323 阅读 · 0 评论 -
【多模态】ALIGN——使用噪声文本数据进行视觉语言感知预训练
图像和文本编码器通过对比损失来进行学习,将互相匹配的文本-图像对嵌入到一起,将不匹配的分开,将配对文本视为图像的细粒度标签,我们的图像与文本对比损失类似于传统的基于标签的分类目标;关键区别在于文本编码器生成“标签”权重。对齐的图像和文本表示自然适合于跨模态匹配/检索任务,并在相应的基准中实现最先进的(SOTA)结果。例如,在大多数零样本和微调中,ALIGN比以前的SOTA方法好7%以上。原创 2023-08-03 17:15:39 · 655 阅读 · 0 评论