CV论文--2024.1.29_lumiere a space-time diffusion model for video gen-CSDN博客

本文链接：https://blog.csdn.net/u012854516/article/details/135904847

1、Gemini: A Family of Highly Capable Multimodal Models

中文标题：Gemini：一系列高性能多模式模型

简介：这份报告介绍了一种名为Gemini的新型多模态模型家族，该家族在图像、音频、视频和文本理解方面展现出了卓越的能力。Gemini家族由三个规格型号组成，分别是Ultra、Pro和Nano，适用于从复杂推理任务到设备内存受限的各种应用场景。在广泛的基准测试中，我们最强大的Gemini Ultra模型在32个测试中有30个取得了最新的进展，特别是在备受关注的多模态基准测试MMLU上，首次实现了人类专家的表现，并在我们检查的20个多模态基准测试中提高了现有技术水平。我们相信，Gemini模型在跨模态推理和语言理解方面的新能力将为各种用例带来可能性，并讨论了以负责任的方式向用户提供这些模型的部署方法。

2、Lumiere: A Space-Time Diffusion Model for Video Generation

中文标题：Lumiere：用于视频生成的时空扩散模型

简介：我们提出了一种名为Lumiere的文本到视频扩散模型，旨在合成真实、多样和连贯运动的视频，这是视频合成领域的一个重要挑战。为此，我们引入了一种称为空间-时间U-Net架构的模型，它通过单次通行生成整个视频的时间持续性。与现有的视频模型相比，后者合成远距离的关键帧，然后进行时间上的超分辨率处理，而这种方法往往难以实现全局时间的一致性。通过在空间和时间上进行（重要的）下/上采样，并利用预训练的文本到图像扩散模型，我们的模型能够直接生成全帧速率、低分辨率视频，并在多个空间时间尺度上进行视频处理。我们展示了最先进的文本到视频生成结果，并展示了我们的设计如何轻松实现各种内容创作任务和视频编辑应用，包括图像到视频的转换、视频修补和风格化生成等。

3、Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model

中文标题：Vision Mamba：利用双向状态空间模型进行高效视觉表示学习

简介：最近，一种名为Mamba的状态空间模型（SSMs）受益于高效的硬件感知设计，展现出在长序列建模方面巨大的潜力。以仅基于SSMs构建高效且通用的视觉骨干网络作为目标，引起了人们的兴趣。然而，由于视觉数据的位置敏感性和对全局上下文的需求，对于SSMs来说，对视觉数据进行有效表示是具有挑战性的。在本文中，我们展示了依赖于自注意力的视觉表示学习观点是不必要的，并提出了一种新的通用视觉骨干网络，称为双向Mamba块（Vim）。Vim利用位置嵌入来标记图像序列，并采用双向状态空间模型来压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中，与成熟的视觉Transformer模型（如DeiT）相比，Vim实现了更高的性能，并且在计算和内存效率方面表现出显著改进。例如，在执行分辨率为1248×1248的图像的批量推理以提取特征时，Vim比DeiT更快2.8倍，并节省了86.8％的GPU内存。这些结果表明，Vim能够克服计算和内存的限制，实现对高分辨率图像的Transformer-style理解，并且具有成为下一代视觉骨干网络的巨大潜力。可以在https://github.com/hustvl/Vim获取代码。