EDPJ-CSDN博客

原创 arXiv AI 综述列表（2024.05.13~2024.05.17）

公和众和号：EDPJ（进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群）每周末更新，完整版进群获取。Q 群在群文件，VX 群每周末更新。

2024-05-18 03:16:31 1003

原创（2024，MambaOut，Mamba 适合长序列，区分指标，不适合分类，适合检测和分割）视觉真的需要 Mamba 吗？

Mamba 非常适合具有长序列和自回归特征的任务。本文提出了一个指标来判别序列是否是长序列本文。它通过堆叠 Mamba 块并移除 SSM，构建了 MambaOut 模型，来验证 Mamba 在分类、检测和分割等视觉任务中的适用性。

2024-05-14 19:32:01 1104 2

原创（2024，KAN，MLP，可训练激活函数，样条函数，分层函数）Kolmogorov–Arnold 网络

MLP具有固定的激活函数和可学习的权重，而KAN没有线性权重，而是使用双层的、由样条函数组合的、可学习的激活函数。相比于MLP，KAN具有更好的可解释性，且使用更少的参数打到与MLP相同或超越的精度。但KAN的训练缓慢，扩展应用有待探索

2024-05-12 16:34:20 1080

原创综述列表（~2024.05.10）

近期 CV 领域综述列表

2024-05-10 22:58:33 169

原创（2024，SD，条件 GAN，蒸馏，噪声到图像翻译，E-LatentLPIPS）将扩散模型蒸馏为条件 GAN

本文将预训练的多步扩散模型蒸馏为一个使用条件 GAN 和感知损失训练的一步生成器。它将扩散蒸馏视为一种配对的图像到图像翻译任务，使用 ODE 轨迹的噪声到图像对。使用的感知损失是E-L-LPIPS，它直接在潜在空间操作，无需解码到像素空间

2024-05-10 18:28:46 773 1

原创（2024|ICML PMLR，强化学习，动态决策，网络跳过，质量和计算的权衡）可切换决策：动态神经生成网络

自回归生成模型推理速度较慢。为解决这个问题，本文引入动态网络可切换决策，在保持模型性能的同时，显著提高推理效率。它利用强化学习，通过动态分配计算资源（自动决定跳过何处以及如何平衡质量和计算成本）来加速推理过程。

2024-05-09 18:15:12 823

原创（2024，DONN，OCNN，复数域，交替的非线性激活层与振荡器层，复值反向传播）深度振荡神经网络

大脑中的感知、记忆和其他高级认知功能是通过大脑中同步振荡网络来实现的。由此启发，DONN由交替的静态的具有非线性激活的密集或卷积层和动态的振荡器层组成。它可被推广到CNN，称为OCNN。这两种网络可应用于信号和图像/视频处理中的各种基准问题

2024-05-09 16:54:44 946

原创（2024，LSTM，Transformer，指数门控，归一化器状态，多头内存混合）xLSTM：扩展的 LSTM

xLSTM 引入指数门控，并修改 LSTM 的内存结构来扩展LSTM。sLSTM带有标量内存、标量更新和新的内存混合。完全可并行化的 mLSTM，具有矩阵内存和协方差更新规则（类似于Transformer的QKV）。

2024-05-08 20:11:29 795

原创（2024，图像分解和混合，多提示控制）因式分解扩散：噪声分解的感知错觉

以频率、颜色空间、运动模糊、掩码、缩放等方式，将图像表示为线性组件的和。本文提出了一种零样本方法，通过为每个组件分配不同的提示，来使用扩散模型采样控制每个组件。该方法还可扩展到逆问题（从真实图像生成混合图像）

2024-05-06 10:53:28 855

原创（2024，一致性模型，强化学习，MDP，DDPO）一致性模型的强化学习：更快的奖励引导文本到图像生成

一致性模型直接将噪声映射到数据，从而在至少一个采样迭代中生成图像。RLCM将一致性模型的迭代推理过程构建为 RL 过程。从而在文本到图像生成上改进了 RL 细化的扩散模型，并在推理时以计算换取样本质量。

2024-04-29 21:24:54 495

原创（2024，泛化，调制而不是 LoRA，升级的 ControlNet，DiT）Diffscaler：增强 DiT 的生成能力

DiffScaler 训练以最少量的参数适应不同的任务。它利用预训练模型的学到的子空间以及学习额外的任务特定子空间的能力，通过添加可训练权重和偏置，使预训练的 DiT 模型能够迅速适用于多个数据集，从而仅用一个模型完成多样的生成任务

2024-04-29 19:04:33 1013

原创（2024|WACV，fMRI到图像，对比学习，数据增强，用多阶段编解码器解决数据对稀缺）DREAM：逆转人类视觉系统的视觉解码

DREAM 是一种基于人类视觉系统的fMRI到图像方法，用于从脑活动中重建看到的图像。它设计了与从视觉刺激到 fMRI 记录相对应的反向通路。其中，它分别使用R-VAC和R-PKM从 fMRI 中提取语义以及预测颜色和深度线索，来用于重建

2024-04-23 02:28:56 892

原创（2024，DiffEdit，掩码，潜在噪声校正）GenVideo：使用 T2I 扩散模型进行单样本目标图像和形状感知视频编辑

GenVideo 利用目标和形状感知的 T2I 模型来进行具有不同形状和大小目标对象的视频编辑。它利用改编自 DiffEdit 的 InvEdit 生成掩码，来保持编辑的时间一致性，并利用潜在噪声校正，来改善编辑的时间一致性。

2024-04-22 18:22:55 619

原创（2024|ICLR，变分扩散模型（VDM），可学习编码器，时间相关的均值函数）DiffEnc：使用学到的编码器进行变分扩散

本文基于VDM，通过引入了与数据和深度相关的均值函数来向扩散过程引入时间依赖的编码器，从而改善扩散损失。它从理论上推导出了生成过程的最优方差，并证明了在连续时间极限下，必须等于扩散方差，以使 ELBO 有良好定义。

2024-04-21 19:16:01 607

原创（2024，时控交叉注意力（T-GATE），缓存和复用交叉注意力图）交叉注意力使文本到图像扩散模型的推理变得麻烦

T-GATE 发现推断过程可分为依赖交叉注意力来使用文本引导的语义生成阶段和增强保真度阶段。在后一阶段忽略文本，可在保持模型性能的同时降低计算复杂度。基于此，T-GATE 在交叉注意力输出收敛后将其缓存，并在剩余的推理步骤中保持不变。

2024-04-20 14:00:53 874

原创（2024，扩展Transformer和数据，SDXL，SD2，DiT与 UNet）基于扩散的文本到图像生成的可扩展性

本文对去噪骨干和训练集进行消融实验，发现增加 Transformer 块对于改善文本-图像对齐比增加通道数量更具高效。在数据扩展方面，训练集的质量和多样性比数据集大小更重要。增加标题密度和多样性可提高文本-图像对齐和学习效率

2024-04-19 17:58:36 923

原创（2024，IXC2-4KHD，LVLM，动态图像分割，高分辨率图像处理）InternLM-XComposer2-4KHD

IXC2-4KHD 将 LVLM 分辨率能力提升到4K HD甚至更高。它提出动态图像分割，在保留了训练图像宽高比的同时，根据预训练的 ViT 自动变化补丁数量并配置布局，从而实现了从 336 像素到 4K 标准的动态训练分辨率。

2024-04-14 17:42:12 980

原创（2024，自回归，下一尺度预测，VQGAN）视觉自回归建模：通过下一尺度预测的可扩展的图像生成

视觉自回归建模是一种重新定义图像自回归学习的新范式。它通过将生成策略从传统图像生成的 “下一个 token 预测” 转变为粗到细的 “下一尺度预测”，来重新构想对图像上的自回归建模。

2024-04-14 12:36:38 888 1

原创（2024，Infini-T，Infini-A，压缩记忆，长期记忆）使用无限注意力的高效无限上下文 Transformer

无限注意力将一个压缩式记忆引入注意力机制中。并在单个 Transformer 块中构建了掩蔽的局部注意力和长期线性注意力机制。此外，它通过复用点积注意力计算中的 query、key 和 value 状态（Q、K 和 V），来实现记忆压缩

2024-04-13 10:45:30 1305

原创（2024，FLOPs 动态分配，MoD，MoDE，top-k 路由，块丢弃）在基于 Transformer 的语言模型中动态分配计算

Transformers 可以学习动态地分配计算给序列中的特定位置。该方法通过路由器为不同的 token 计算权重，从而决定哪些 token 要参与块的计算（自注意力和 MLP），哪些 token 要绕过块，以此来限制总计算预算。

2024-04-12 08:22:53 1080

原创（2024，Attention-Mamba，MoE 替换 MLP）Jamba：混合 Transformer-Mamba 语言模型

Jamba 是一个基于T-M和MoE 的LLM。它交错使用T和M层的块，并添加 MoE 来增加模型容量。在大规模构建的情况下，与普通T相比，Jamba有高吞吐量和小内存占用，并且在标准语言模型基准测试和长上下文评估方面达到了最先进的性能

2024-04-08 02:37:17 1446

原创（2024，CLIP 文本嵌入，属性解耦与控制，编辑迁移，SDXL）通过识别语义方向在 T2I 模型中进连续目标特定的属性控制

本文发现扩散模型能够以语义上有意义的方式解释逐 token CLIP 文本嵌入空间中的局部偏差，而不仅仅是作为单词嵌入的离散空间。基于此，通过识别与特定属性相对应的语义方向，可将粗糙的提示增强为对特定目标的属性表达进行细粒度、连续控制。

2024-04-07 18:37:49 1060

原创（2024，手部生成，关键点热图，修复和外画，SD）Giving a Hand to DM：改进条件人类图像生成的两阶段方法

本文提出一种姿势条件的人类图像生成方法。它分为两个阶段：首先在多任务设置中训练手部生成器，基于关键点热图产生手部图像及其相应的分割掩模；然后，在第二阶段使用调整后的 ControlNet 模型来在生成的手部周围绘制身体。

2024-04-06 06:39:22 1101

原创（2024，手部生成，SMPL，MANO，SD，手部参数）HanDiffuser：具有逼真手部外观的文本到图像生成

HanDiffuser是基于扩散的关注手部生成的架构。它由两个组件组成：一个用于从输入文本生成 SMPL-Body 和 MANO-Hand 参数的T2H扩散模型，，以及一个以先前组件生成的提示和手部参数上为条件合成图像的T-H2I扩散模型。

2024-04-06 04:00:32 823

原创（2024，超分辨率，膨胀卷积和低通滤波，SD）FouriScale：免训练高分辨率图像合成的频率视角

通过结合膨胀和低通滤波来替换预训练扩散模型中原始的卷积层，FS实现跨分辨率生成的结构一致性和尺度一致性，从而可以利用在低分辨率图像上预训练的模型来实现任意尺寸、高分辨率和高质量生成。

2024-04-06 02:10:09 706

原创（2024，LDM，InstructPix2Pix，光流，基于运动的变形模块）Pix2Gif：用于 GIF 生成的运动引导的扩散

Pix2Gif是一种基于图像到图像翻译范式的、由文本和运动幅度提示引导的图像到 GIF（视频）生成模型。它向 IP2P 引入一个包含光流网络的运动引导的变形模块，学习将源图像特征空间扭曲到目标图像特征空间，同时通过感知损失保持视觉一致性

2024-04-02 18:42:13 876

原创（2024，大 dropout 微调，线性近似，线性微调，分布外性能）使用非常大的丢弃率进行微调

涉及多个数据分布的情景最好使用丰富的表示，本文调查使用非常高的丢弃率来获得这样丰富表示。在微调场景中，该方法优于集成和权重平均方法的分布外性能。微调可由一阶近似描述，此时，微调仅利用现有表示无需创建新表示，且可在微调中使用高 dropout

2024-03-30 18:22:17 606

原创（2024，嵌套标记化，区域编码器，上下文编码器，Transformer-XL，Mamba）xT：大图像中更大上下文的嵌套标记化

xT，一个简单的视觉 Transformer 框架，它有效地聚合了全局上下文（上下文编码器）和局部细节（区域编码器），并且可以在当今的 GPU 上端到端地建模大尺度图像（使用嵌套标记器进行预处理）。

2024-03-29 19:02:48 1025

原创（2023，SSM，门控 MLP，选择性输入，上下文压缩）Mamba：具有选择性状态空间的线性时间序列建模

本文提出 Mamba，与 S4 的区别在于：通过组合 H3 与门控 MLP，使参数成为输入的函数，允许模型根据当前输入有选择地沿序列长度维度传播或遗忘信息。它使模型已从时不变变为时变，从而提升了效率。

2024-03-29 16:27:34 1094

原创（2024，条件注意力，外观保持，潜在随机混合）StreamingT2V：从文本进行一致、动态且可扩展的长视频生成

本文提出 StreamingT2V，一种生成平滑过渡的长视频的自回归方法，包括：一个短期记忆块，CAM，实现一致的块过渡；一个长期记忆块，APM，防止模型忘记初始场景；以及一个随机混合潜在的方法，避免增强视频时出现块之间的不一致。

2024-03-27 18:44:50 1110

原创（2024，SDXL-Turbo，CycleGAN-Turbo，pix2pix-Turbo）使用文本到图像模型的一步图像翻译

本文介绍了一种适用于配对（pix2pix-Turbo）和未配对（CycleGAN-Turbo）设置的一步图像到图像翻译方法。关键思想是通过对抗将预训练的文本条件一步扩散模型，如 SDXL-Turbo，适应到新的领域和任务中。

2024-03-26 20:21:30 672

原创（2023，SDXL-Turbo，少步生成，对抗损失，分数蒸馏损失）对抗扩散蒸馏

本文介绍对抗扩散蒸馏，它使用分数蒸馏来利用现成的大规模图像扩散模型作为教师信号，并结合对抗损失来确保即使只有一到两个采样步骤，图像的保真度也很高。

2024-03-26 19:53:56 874

原创（2024，近似最优输运，Hungarian 算法，噪声-图像匹配，扩散）通过近似最优输运改进基于扩散的生成模型

本文提出 AOT，通过近似和整合最优输运到扩散模型的训练中，来提高模型准确估计去噪器输出的能力。AOT 不依赖于随机采样的噪声，而是利用 Hungarian 算法选择与目标图像更接近的高斯噪声。

2024-03-24 21:00:35 836

原创（2023，图像放大与超分辨率，扩散，缩放堆叠表示，多分辨率混合，多尺度联合抽样）Ten 的生成能力

本文通过联合多尺度扩散抽样，以一种缩放一致的方式，使用预训练T2I扩散模型联合生成对应于一个场景的整个缩放图像集。该方法在每个生成的尺度上都由不同的文本提示引导。

2024-03-23 17:27:45 1002

原创（2024，Mamba，DiT，之字扫描与空间连续性）ZigMa：之字形 Mamba 扩散模型

本文提出 ZigMa，通过将 DiT 中的多头自注意力块替换为 Zigzag Mamba 块，在将二次复杂性变为线性复杂性的同时，考虑了空间连续性。

2024-03-22 18:39:31 935

原创（2024，YOSO，自协同学习，扩散 GAN，单步生成）您只需采样一次：通过自协同扩散 GAN 驯服一步文本到图像合成

扩散 GAN 的少量步生成不够高效，本文提出 YOSO，一个单步扩散 GAN 模型。受到协同学习的启发，它构建了一个自协同学习目标。它还使用预训练的T2I扩散模型进行自协同扩散 GAN 的初始化，从而避免昂贵的从头训练。

2024-03-21 05:19:35 810

原创（2022|ICLR，扩散 GAN，少量步扩散，对抗散度，非饱和 GAN）用去噪扩散 GAN 解决生成学习难题

由于少量步去噪无法保证去噪分布的高斯假设成立，本文建议使用多模态分布来建模去噪分布。在训练时，使用对抗损失匹配基于条件 GAN 的真实去噪分布和参数化去噪分布，该对抗损失通过最小化每个去噪步的对抗散度来定义。

2024-03-21 04:48:30 937

原创（2024，EBGAN，扩散，变分近似）通过扩散过程改进基于能量的对抗模型

受扩散模型的启发，本文将 EBM 嵌入到每个去噪步骤中。扩散模型使用马尔可夫链，对于每一步，学习一个条件分布。本文使用变分近似来避免昂贵的蒙特卡洛采样。

2024-03-19 17:24:49 1056

原创（2024，PixArt-Σ，DiT，KV 压缩，超分辨率）用于 4K 文本到图像生成的 DiT 的弱到强训练

本文介绍 PixArt-Σ，一个改进的 DiT，能够直接生成 4K 分辨率的图像。它通过整合高质量数据，从低分辨率模型发展到高分辨率模型。它在 DiT 框架内使用 KV 压缩提高效率。

2024-03-15 14:14:28 899 1

原创（2024，CogView3，级联架构，中继扩散，超分辨率，线性模糊，蒸馏）通过中继扩散进行更精细、更快的文本到图像生成

本文提出了 CogView3，这是一个使用中继的级联扩散框架：首先在基础阶段创建低分辨率图像，然后从基础阶段生成的结果开始扩散，通过中继进行超分辨率。

2024-03-14 15:49:38 966

空空如也

空空如也