AIGC论文_资料加载中的博客-CSDN博客

AIGC论文

关注

文章平均质量分 87

跟踪前沿AIGC论文,了解算法实现思路

关注数：文章数：22 文章阅读量：52521 文章收藏量：416

作者: 资料加载中

挑战AIGC100论文阅读

展开

专栏收录文章

【AIGC】RealVideo：一种基于自回归扩散视频生成的实时流媒体对话系统

在实时流视频生成中，参考图像中的标记是理想的接收器标记，因为它们能够引导模型在整个生成过程中与参考图像保持一致。幸运的是，由于 RoPE 是一种相对位置编码，我们可以通过简单地调整目标标记的位置索引，确保滑动窗口注意力机制下推理和训练之间的严格对齐。幸运的是，在音频驱动的视频生成中，这种限制通常是可以接受的，原因有二：(i) 音频流严格限制了每一帧的内容；在常微分方程蒸馏之后，模型将进一步训练以匹配教师模型，方法是最小化“真实分数模型”和“虚假分数模型”概率密度之间的梯度差异，如[3][4]所述。

原创 2025-12-15 19:49:48 · 743 阅读 · 0 评论
【AIGC】SCAIL：通过对 3D 一致姿态表示进行上下文学习，实现工作室级角色动画

SCAIL：通过对 3D 一致姿态表示进行上下文学习，实现工作室级角色动画

原创 2025-12-15 19:13:09 · 701 阅读 · 0 评论
【AIGC】HPS v2：评估人类对文本到图像合成偏好的可靠基准

HPDv2是目前最大的人类图像偏好数据集，包含79.8万组人工标注的图像对比数据，覆盖9个文本到图像生成模型和COCO真实图像，有效解决了先前数据集在图像来源和文本提示方面的偏差问题。研究者采用ChatGPT优化提示词表达，并使用基于OpenClip预训练的ViT-H/14模型进行评估，通过冻结部分层和贝叶斯优化超参数的方式，在128批量大小和3.3e-6学习率等设定下训练4000步。该数据集为评估模型泛化能力提供了更全面的基准。

原创 2025-10-31 17:52:39 · 1127 阅读 · 0 评论
【论文解读】Real-ESRGAN：使用纯合成数据训练真实世界的超分辨率图像

尽管在盲超分辨率方面已经进行了许多尝试，以恢复具有未知和复杂退化的低分辨率图像，但它们仍然远远不能解决一般的真实世界退化图像。在这项工作中，我们将强大的 ESRGAN 扩展到一个实际的恢复应用程序（即 Real-ESRGAN），该应用程序使用纯合成数据进行训练。具体来说，引入了高阶退化建模过程，以更好地模拟复杂的现实世界退化。我们还考虑了合成过程中常见的振铃和过冲伪影。此外，我们还采用了具有频谱归一化的 U-Net 判别器来提高判别器能力并稳定训练动态。

原创 2023-11-27 00:56:46 · 5938 阅读 · 0 评论
【论文解读】AnimateAnyone:角色动画的一致可控的图像到视频合成

角色动画旨在通过驱动信号从静止图像生成角色视频。目前，扩散模型因其强大的生成能力而成为视觉生成研究的主流。然而，在图像到视频领域仍然存在挑战，尤其是在角色动画领域，在时间上保持与角色详细信息的一致性仍然是一个艰巨的问题。在本文中，我们利用扩散模型的力量，提出了一个为角色动画量身定制的新框架。为了保持参考图像中复杂外观特征的一致性，我们设计了ReferenceNet，通过空间注意力来合并细节特征。

原创 2023-12-02 15:20:04 · 4080 阅读 · 0 评论
【论文解读】FFHQ-UV:用于3D面部重建的归一化面部UV纹理数据集

我们提出了一个大规模的面部UV纹理数据集，其中包含超过50,000张高质量的纹理UV贴图，这些贴图具有均匀的照明、中性的表情和清洁的面部区域，这些都是在不同光照条件下渲染逼真的3D面部模型所需的特征。该数据集源自大型人脸图像数据集 FFHQ，借助我们全自动且强大的 UV 纹理制作流程。我们的流程利用基于 StyleGAN 的面部图像编辑方法的最新进展，从单图像输入生成多视图归一化面部图像。然后应用精心设计的UV纹理提取、校正和完成程序，从归一化的人脸图像中生成高质量的UV贴图。

原创 2023-11-18 23:17:25 · 2824 阅读 · 3 评论
【论文解读】GFPGAN:基于生成式面部先验的真实世界盲脸修复

盲脸修复通常依赖于面部先验，例如面部几何先验或参考先验，以恢复逼真和可信的细节。然而，非常低质量的输入无法提供准确的几何先验，而高质量的参考则无法获得，从而限制了在实际场景中的适用性。在这项工作中，我们提出了GFP-GAN，它利用封装在预训练人脸GAN中的丰富多样的先验进行盲人脸恢复。这种生成面部先验（GFP）通过空间特征变换层被整合到面部恢复过程中，这使得我们的方法能够实现真实性和保真度的良好平衡。

原创 2023-11-27 17:53:18 · 4107 阅读 · 0 评论
MajicTryOn(基于wanvideo的虚拟试穿项目)

majic_tryon，一个基于视频扩散模型的虚拟试穿项目

原创 2025-06-06 23:17:00 · 518 阅读 · 0 评论
【AIGC】Kolors:快手开源的文生图大模型

Kolors:快手开源的文生图大模型

原创 2024-09-17 16:18:49 · 1755 阅读 · 1 评论
【AIGC】CFG:基于扩散模型分类器差异引导

CFG:基于扩散模型分类器差异引导

原创 2024-09-17 00:16:56 · 1619 阅读 · 0 评论
【AIGC】InstructPixPix:基于文本引导的图像编辑技术

InstructPixPix:基于文本引导的图像编辑技术

原创 2024-09-09 23:50:49 · 2379 阅读 · 0 评论
【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画

EchoMimic:基于可编辑地标条件的类人音频驱动肖像动画

原创 2024-09-08 17:21:05 · 1998 阅读 · 1 评论
【数字人】Facevid2vid:用于视频会议的一次性自由视图说话头合成

Facevid2vid:用于视频会议的一次性自由视图说话头合成

原创 2024-09-04 01:51:39 · 1504 阅读 · 0 评论
【AIGC】MimicMotion：姿态引导的高质量人体运动视频生成技术

MimicMotion：姿态引导的高质量人体运动视频生成技术

原创 2024-09-01 13:04:18 · 2962 阅读 · 0 评论
【AIGC】DiffuToon:稳定的视频卡通化技术方案

diffutoon稳定的视频卡通化技术方案

原创 2024-07-03 20:55:37 · 983 阅读 · 0 评论
【AIGC】PULID:对比对齐的ID定制化技术

Pulid对比对齐的ID定制化技术

原创 2024-06-04 22:29:11 · 1684 阅读 · 0 评论
【AIGC】FaceChain:发挥生成式内容的无限可能性

FaceChaine提供了一系列的生成方案，通过少量的图像输入，就能生成逼真的个性化肖像。它是一个个性化肖像生成框架，包含丰富的人脸感知相关的模型，例如人脸检测，深度人脸向量提取，人脸属性分析等等。输入主要的肖像生成功能，社区还包括虚拟试穿，2D数字人功能最近的一些工作都聚焦于使用少量的图像再基础模型的基础上去做微调，让微调网络记住某个特定人物身份信息。这样就可以结合提示词在大模型的基础上得到更多新样式的高保真图像。目前人物为主的个性化肖像文生图方法主要分两种：1.基于lora,2基于人脸身份。

原创 2024-06-01 23:51:41 · 1369 阅读 · 2 评论
【AIGC】IP-Adapter：文本兼容图像提示适配器，用于文本到图像扩散模型

IPAdapter能够通过图像给Stable Diffusion模型以内容提示，让其生成参考该图像画风，可以免去Lora的训练，达到参考画风人物的生成效果。通过文本提示词生成的图像，往往需要设置复杂的提示词，通常设计提示词变得很复杂。文本提示可以由图像来替代。直接微调预训练模型也是一种行之有效的方法，但是需要消耗大量计算资源。并且存在模型兼容性问题。在本文中，我们介绍了IP-Adapter，这是一种有效且轻量级的适配器，用于实现预训练文本到图像扩散模型的图像提示功能。我们的 IP 适配器的关键设计是。

原创 2024-01-13 23:56:55 · 7475 阅读 · 11 评论
【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成

DreamBooth可以让我们使用一个很小的数据集微调文生图模型，然后基于文本提示词为我们训练的的主体替换不同的场景。大型文本转图像模型在人工智能的发展中实现了显著的飞跃，能够从给定的文本提示中高质量和多样化地合成图像。然而，这些模型缺乏模仿给定参考集中受试者外观的能力，也缺乏在不同背景下合成它们的新演绎的能力。在这项工作中，我们提出了一种文本到图像扩散模型的“个性化”新方法。给定一个主题的几张图像作为输入，我们微调一个预训练的文本到图像模型，以便它学会将唯一标识符与该特定主题绑定。

原创 2024-01-14 19:28:23 · 1791 阅读 · 0 评论
【AIGC】Controlnet:基于扩散模型的文生图的可控性

controlnet可以让stable diffusion的生图变得可控。冻结了stable diffusion的预训练模型并重用它的预训练编码层神经网络结构与零初始化卷积层连接，从零开始逐渐增加参数，并确保微调过程中不会有噪声影响Controlnet在小数据集(小于5张万图)和大数据集(大于100万张图)上的训练表现都是稳定的。

原创 2024-01-13 15:16:51 · 2298 阅读 · 0 评论
【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

Animatediff是一个有效的框架将文本到图像模型扩展到动画生成器中，无需针对特定模型进行调整。只要在大型视频数据集中学习到运动先验知识。AnimateDiff就可以插入到个性化的文生图模型中，与Civitai和Huggingface的文生图模型兼容，也可以与自己微调的大模型兼容。随着文本到图像模型（例如，Stable Diffusion [22]）和相应的个性化技术的进步DreamBooth [24] 和 LoRA [13] 等产品，每个人都可以以可承受的成本将他们的想象力体现成高质量的图像。

原创 2024-01-14 17:45:10 · 3427 阅读 · 0 评论
【AIGC-数字人】V-Express：渐进式训练的数字人视频生成技术

在人像视频生成领域，使用单张图像生成人像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器以实现受控生成。然而，控制信号的强度可能会有所不同，包括文本、音频、图像参考、姿态、深度图等。其中，较弱的条件往往由于较强条件的干扰而难以发挥作用，这对平衡这些条件提出了挑战。在我们关于肖像视频生成的工作中，我们发现音频信号特别弱，常常被姿势和原始图像等更强的信号所掩盖。然而，用弱信号直接训练往往会导致收敛困难。

原创 2024-06-01 13:21:16 · 1245 阅读 · 0 评论

AIGC论文

作者: 资料加载中

【AIGC】RealVideo：一种基于自回归扩散视频生成的实时流媒体对话系统

【AIGC】SCAIL：通过对 3D 一致姿态表示进行上下文学习，实现工作室级角色动画

【AIGC】HPS v2：评估人类对文本到图像合成偏好的可靠基准

【论文解读】Real-ESRGAN：使用纯合成数据训练真实世界的超分辨率图像

【论文解读】AnimateAnyone:角色动画的一致可控的图像到视频合成

【论文解读】FFHQ-UV:用于3D面部重建的归一化面部UV纹理数据集

【论文解读】GFPGAN:基于生成式面部先验的真实世界盲脸修复

MajicTryOn(基于wanvideo的虚拟试穿项目)

【AIGC】Kolors:快手开源的文生图大模型

【AIGC】CFG:基于扩散模型分类器差异引导

【AIGC】InstructPixPix:基于文本引导的图像编辑技术

【AIGC数字人】EchoMimic:基于可编辑关键点条件的类人音频驱动肖像动画

【数字人】Facevid2vid:用于视频会议的一次性自由视图说话头合成

【AIGC】MimicMotion：姿态引导的高质量人体运动视频生成技术

【AIGC】DiffuToon:稳定的视频卡通化技术方案

【AIGC】PULID:对比对齐的ID定制化技术

【AIGC】FaceChain:发挥生成式内容的无限可能性

【AIGC】IP-Adapter：文本兼容图像提示适配器，用于文本到图像扩散模型

【AIGC】DreamBooth:微调文本到图像扩散模型用于主题驱动的生成

【AIGC】Controlnet:基于扩散模型的文生图的可控性

【AIGC】AnimateDiff:无需定制化微调的动画化个性化的文生图模型

【AIGC-数字人】V-Express：渐进式训练的数字人视频生成技术