多模态
文章平均质量分 94
原来是小歌啊
当作笔记记录,方便自己回顾,风格很随心~
展开
-
BEIT-3【多模态统一建模】(未完待续……)
总结:1、作者从三个方面实现了大一统:(1)模型架构 (VLMo[1] 中使用的 Mixture-of-Modality-Experts, MoME,即 Multiway Transformer)、(2)预训练任务 (Mask Data Modeling) :文本,图像,图文对(3)模型缩放 (把模型放大)原创 2023-11-02 20:00:49 · 54 阅读 · 0 评论 -
Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks(未完待续……)
尽管基础模型取得了显着的成功,但其针对特定任务的微调范式使它们与一般感知建模的目标不一致。消除这种不一致的关键是使用通用模型进行通用任务建模。然而,现有的通才模型尝试在通用性和性能方面都不足。在本文中,我们提出了,这是第一个能够以具有竞争力的性能处理主要大规模视觉和视觉语言任务的通用模型。具体来说,图像被编码为一般区域建议,而文本则通过基于 Transformer 的语言模型进行编码。编码表示由与任务无关的解码器进行转换。不同的任务被表述为统一的最大似然估计问题。原创 2023-10-31 21:41:32 · 204 阅读 · 1 评论 -
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information(未完待续……)
为了有效挖掘大规模模型的潜力,人们提出了不同来源的海量数据支持的各种预训练策略,包括监督预训练、弱监督预训练和自监督预训练。事实证明,结合多种预训练策略和来自不同模式/来源的数据可以极大地促进大规模模型的训练。然而,目前的工作采用多级预训练系统,复杂的流程可能会增加预训练的不确定性和不稳定性。因此,希望这些策略能够以单阶段方式集成。在本文中,我们首先提出了一个通用的多模态互信息公式作为统一的优化目标,并证明所有现有方法都是我们框架的特例。在这个统一的视角下,我们提出了一种一体化的单阶段预训练方法,称为。原创 2023-10-31 10:41:20 · 67 阅读 · 1 评论 -
Align and Attend: Multimodal Summarization with Dual Contrastive Losses
多模态摘要的目标是从不同模态中提取最重要的信息以形成摘要。与单峰摘要不同,多模态摘要任务明确地利用跨模态信息来帮助生成更可靠和高质量的摘要。然而,现有方法未能利用不同模态之间的时间对应关系,并且忽略了不同样本之间的内在相关性。为了解决这个问题,我们引入了对齐和关注多模态摘要(A2Summ),这是一个统一的基于多模态变换的模型,可以有效地对齐和关注多模态输入。此外,我们提出了两种新的对比损失模型样本间和样本内的相关性。原创 2023-10-29 21:30:05 · 122 阅读 · 0 评论