原来是小歌啊-CSDN博客

原创 FlexiViT

视觉Transformers通过将图像切片为patch来转换为序列。这些patch的大小控制着速度/精度的权衡，较小的patch以更大的计算成本导致更高的精度，但改变patch大小通常需要重新训练模型。在本文中，我们证明了在训练时简单地随机化 patch 大小会产生一组在广泛的 patch 大小范围内表现良好的权重，从而可以在部署时根据不同的计算预算调整模型。

2023-11-15 16:19:27 112

原创 Accelerating Vision-Language Pretraining with Free Language Modeling（未完待续……）

视觉语言预训练 (VLP) 的最新技术实现了堪称典范的性能，但由于收敛速度慢和训练时间长而导致训练成本高昂，尤其是在大规模网络数据集上。训练效率的一个主要障碍在于掩蔽语言建模（MLM）中的纠缠预测率（用于重建的令牌的百分比）和损坏率（损坏的令牌的百分数），也就是说，以大部分输出令牌被排除在预测损失之外为代价来实现适当的损坏率。为了加速 VLP 的收敛，我们提出了一种新的预训练任务，即自由语言建模（FLM），它可以在任意损坏率下实现 100% 的预测率。

2023-11-15 10:32:44 55

原创 EfficientNet网络

神经结构搜索（Neural Architecture Search，简称NAS）是一种自动设计神经网络的技术，可以通过算法根据样本集自动设计出高性能的网络结构，在某些任务上甚至可以媲美人类专家的水准，甚至发现某些人类之前未曾提出的网络结构，这可以有效的降低神经网络的使用和实现成本。NAS的原理是给定一个称为搜索空间的候选神经网络结构集合，用某种策略从中搜索出最优网络结构。神经网络结构的优劣即性能用某些指标如精度、速度来度量，称为性能评估。这一过程如下图所示。

2023-11-13 15:43:44 265

原创 Tailor Versatile Multi-modal Learning for Multi-label Emotion Recognition

多模态多标签情感识别（MMER）旨在从异构的视觉、音频和文本模态中识别各种人类情感。以前的方法主要侧重于将多种模态投影到一个共同的潜在空间中并学习所有标签的相同表示，这忽略了每种模态的多样性并且无法从不同角度捕获每个标签更丰富的语义信息。此外，模态和标签的关联关系尚未得到充分利用。在本文中，我们提出了用于多标签情感识别的通用多模态学习（TAILOR），旨在细化多模态表示并增强每个标签的判别能力。具体来说，我们设计了一个对抗性多模态细化模块，以充分探索不同模态之间的共性并加强每种模态的多样性。

2023-11-08 21:22:40 188 1

原创 BEIT-3【多模态统一建模】（未完待续……）

总结：1、作者从三个方面实现了大一统：（1）模型架构 (VLMo[1] 中使用的 Mixture-of-Modality-Experts, MoME，即 Multiway Transformer)、（2）预训练任务 (Mask Data Modeling) ：文本，图像，图文对（3）模型缩放 (把模型放大)

2023-11-02 20:00:49 62

原创 Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks（未完待续……）

尽管基础模型取得了显着的成功，但其针对特定任务的微调范式使它们与一般感知建模的目标不一致。消除这种不一致的关键是使用通用模型进行通用任务建模。然而，现有的通才模型尝试在通用性和性能方面都不足。在本文中，我们提出了，这是第一个能够以具有竞争力的性能处理主要大规模视觉和视觉语言任务的通用模型。具体来说，图像被编码为一般区域建议，而文本则通过基于 Transformer 的语言模型进行编码。编码表示由与任务无关的解码器进行转换。不同的任务被表述为统一的最大似然估计问题。

2023-10-31 21:41:32 239 1

原创 Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information（未完待续……）

为了有效挖掘大规模模型的潜力，人们提出了不同来源的海量数据支持的各种预训练策略，包括监督预训练、弱监督预训练和自监督预训练。事实证明，结合多种预训练策略和来自不同模式/来源的数据可以极大地促进大规模模型的训练。然而，目前的工作采用多级预训练系统，复杂的流程可能会增加预训练的不确定性和不稳定性。因此，希望这些策略能够以单阶段方式集成。在本文中，我们首先提出了一个通用的多模态互信息公式作为统一的优化目标，并证明所有现有方法都是我们框架的特例。在这个统一的视角下，我们提出了一种一体化的单阶段预训练方法，称为。

2023-10-31 10:41:20 85 1

原创 Align and Attend: Multimodal Summarization with Dual Contrastive Losses

多模态摘要的目标是从不同模态中提取最重要的信息以形成摘要。与单峰摘要不同，多模态摘要任务明确地利用跨模态信息来帮助生成更可靠和高质量的摘要。然而，现有方法未能利用不同模态之间的时间对应关系，并且忽略了不同样本之间的内在相关性。为了解决这个问题，我们引入了对齐和关注多模态摘要（A2Summ），这是一个统一的基于多模态变换的模型，可以有效地对齐和关注多模态输入。此外，我们提出了两种新的对比损失模型样本间和样本内的相关性。

2023-10-29 21:30:05 154

qq_42873279的博客