AIGC Studio：分享AIGC前沿知识和好玩应用，公众号同名。

计算机硕士，人工智能领域优质创作者，从事深度学习、计算机视觉、图像处理相关工作，目前关注于AIGC文生图，图生图，文生视频等方向。曾在滴滴，小米任职算法工程师。

原创超越IP-Adapter！阿里提出UniPortrait，可通过文本定制生成高保真的单人或多人图像。

本文介绍了一种创新的人体图像个性化框架 UniPortrait，它将单 ID 和多 ID 定制与高人脸保真度、广泛的人脸可编辑性、自由形式的输入描述和多样化的布局生成统一起来。UniPortrait 仅包含两个即插即用模块：ID 嵌入模块和 ID 路由模块。ID 嵌入模块使用解耦策略为每个 ID 提取多功能可编辑人脸特征，并将它们嵌入到扩散模型的上下文空间中。然后，ID 路由模块将这些嵌入自适应地组合和分布到合成图像中的各自区域，实现单 ID 和多 ID 的定制。

2024-09-07 11:11:15 1172

原创北大&港中文&腾讯提出ViewCrafter：一张图像就可以制作影视特效和游戏画面！

尽管神经 3D 重建最近取得了进展，但对密集多视图捕获的依赖限制了它们的广泛适用性。在这项工作中，我们提出了ViewCrafter，这是一种利用视频扩散模型的先验从单个或稀疏图像合成一般场景的高保真新视图的新方法。我们的方法利用视频扩散模型强大的生成能力和基于点的表示提供的粗略 3D 线索，通过精确的相机姿势控制生成高质量的视频帧。为了进一步扩大新视图的生成范围，我们定制了一种迭代视图合成策略和相机轨迹规划算法，以逐步扩展 3D 线索和新视图覆盖的区域。

2024-09-07 11:07:38 919

原创 InstantX团队新作！基于端到端训练的风格转换模型CSGO

扩散模型在受控图像生成中表现出卓越的能力，这进一步激发了人们对图像风格转换的兴趣。由于特定数据的稀缺，现有的工作主要集中于训练基于自由的方法（例如，图像反转）。在本研究中，我们提出了一种用于内容-风格-风格化图像三元组的数据构建管道，可生成并自动清理风格化的数据三元组。基于此管道，我们构建了一个数据集 IMAGStyle，这是第一个包含 210k 个图像三元组的大规模风格转换数据集，可供社区探索和研究。

2024-09-04 22:17:09 1114

原创 ECCV2024｜RegionDrag：基于区域的图像编辑方法，通过手动拖拽实现图像编辑！

基于点拖拽的图像编辑方法（例如 DragDiffusion）引起了广泛关注。然而，由于基于点的编辑指令稀疏，基于点拖拽的方法存在计算开销大和对用户意图误解的问题。本文提出了一种基于区域的复制粘贴拖拽方法 RegionDrag以克服这些限制。RegionDrag 允许用户以句柄和目标区域的形式表达编辑指令，从而实现更精确的控制并减少歧义。此外，基于区域的操作在一次迭代中完成编辑，比基于点拖拽的方法快得多。我们还结合了注意力交换技术，以增强编辑过程中的稳定性。

2024-09-04 22:14:10 571

原创 StyleGAN和Diffusion结合能擦出什么火花？PreciseControl：实现文本到图像生成中的精确属性控制！

最近，我们看到大量个性化方法用于文本到图像 (T2I) 扩散模型，这些模型使用少量图像来学习概念。现有方法在用于人脸个性化时，难以在保留身份的情况下实现令人信服的反转，并且依赖于对生成的脸部进行基于语义文本的编辑。但是，面部属性编辑需要更细粒度的控制，而仅使用文本提示很难实现这一点。相比之下，StyleGAN 模型可以学习丰富的面部先验知识，并通过潜在操作实现对细粒度属性编辑的平滑控制。这项工作使用 StyleGAN 解开的W +空间来调节 T2I 模型。

2024-09-02 23:39:09 1154

原创免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

HivisionIDPhoto旨在开发一种实用的证件照智能制作算法。它利用一套完善的模型工作流程，实现对多个用户拍摄场景的识别、抠图与服饰拍照生成。HivisionIDPhoto可以实现：轻量级抠图根据不同尺寸规格生成不同的标准服装照、六寸排版照美颜（等待）智能换正装（等待）

2024-09-02 23:35:53 1192

原创实时图像编辑大革新！Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间＜0.5秒！

我们在几步扩散模型的背景下解决了精确图像反转和分离图像编辑的挑战。我们引入了一种基于编码器的迭代反演技术。反演网络以输入图像和上一步的重建图像为条件，允许对输入图像进行下一次重建校正。我们证明，通过以（自动生成的）详细文本提示为条件，可以在几步扩散模型中轻松实现分离控制。为了操纵反转图像，我们冻结噪声图并修改文本提示中的一个属性（手动或通过 LLM 驱动的基于指令的编辑），从而生成与输入图像相似的新图像，但只有一个属性发生变化。它可以进一步控制编辑强度并接受指导性文本提示。

2024-08-30 21:09:47 2103

原创 MeshAnything V2来了！30秒生成建模师级Mesh！最大可生成面数提升至1600.

我们推出了 MeshAnything V2，这是一种自回归转换器，可生成与给定形状对齐的艺术家创建的网格 (AM)。它可以与各种 3D 资产生产流程集成，以实现高质量、高度可控的 AM 生成。使用相同大小的模型，MeshAnything V2 在效率和性能方面都超越了以前的方法。这些改进归功于我们新提出的网格标记化方法：相邻网格标记化 (AMT)。与之前用三个顶点表示每个面的方法不同，AMT 尽可能使用单个顶点。与之前的方法相比，AMT 平均需要大约一半的标记序列长度来表示相同的网格。

2024-08-30 21:08:31 1087

原创媲美Flux pro! Ideogram 发布了 2.0 图像生成模型, 照片级真实感和高质量文本渲染！

Ideogram 发布了 2.0 模型,图像生成质量大幅提高，产品易用性改善，文字生成能力也提升许多。Ideogram 2.0 在图像快速对齐、照片级真实感和文本渲染质量方面取得了显著进步。人工评估一致认为 Ideogram 2.0 比 Flux Pro 和 DALL·E 3 有了显著改进。尽管我们在图像质量方面有所改进，但我们的 API 定价仍然极具竞争力，低于 DALL·E 3，与 Flux Pro 相当。图像风格控制：包括现实、设计、3D 和动漫。调色板控制：可以生成符合您特定调色板的图像。

2024-08-30 21:07:17 1173

原创腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

定制视频生成旨在通过文本提示和主体参考图像生成高质量的视频。然而，由于它只在静态图像上进行训练，主体学习的微调过程会破坏视频扩散模型 (VDM) 组合概念和生成运动的能力。为了恢复这些能力，一些方法使用类似于提示的额外视频来微调或引导模型。这需要在生成不同运动时频繁更改引导视频甚至重新调整模型，这对用户来说非常不方便。在本文中，我们提出了 CustomCrafter，这是一个新颖的框架，它保留了模型的运动生成和概念组合能力，而无需额外的视频和微调来恢复。

2024-08-29 08:39:50 992

原创字节开源 FLUX Dev 的 Haper SD Lora,只需要 8 步或者 16 步就可以用 FLUX 生成图片! 文章附模型下载链接

最近，出现了一系列考虑扩散的蒸馏算法，以减轻与扩散模型 (DM) 的多步推理过程相关的计算开销。当前的蒸馏技术通常分为两个不同的方面：i）ODE 轨迹保存；ii）ODE 轨迹重构。然而，这些方法存在严重的性能下降或领域转移。为了解决这些限制，我们提出了Hyper-SD，这是一个新颖的框架，它协同融合了 ODE 轨迹保存和重构的优点，同时在步骤压缩期间保持近乎无损的性能。首先，我们引入轨迹分段一致性蒸馏，以在预定义的时间步长段内逐步执行一致性蒸馏，这有助于从高阶角度保留原始 ODE 轨迹。

2024-08-29 08:37:42 1003

原创中山大学和联想研究院提出文本到服装生成模型GarmentAligner，解决服装生成中语义对齐、数量、位置和相互关系等问题。

通用的文本转图像模型为艺术、设计和媒体领域带来了革命性的创新。然而，当应用于服装生成时，即使是最先进的文本转图像模型也存在细粒度语义错位，特别是在服装组件的数量、位置和相互关系方面。为了解决这个问题，我们提出了 GarmentAligner，这是一个使用检索增强多级校正训练的文本转服装扩散模型。为了在组件级别实现语义对齐，我们引入了一个自动组件提取管道，以从相应的图像和标题中获取服装组件的空间和定量信息。

2024-08-27 21:42:39 1071

原创 Stable Diffusion【XL Lora】推荐！AI助力服装设计，让服装拆分设计就是这么高效！

今天给大家介绍一个服装饰品分类背景的基于SDXL的Lora模型：分类背景 XUER。该模型是由作者（B站绪儿已成精）炼制，非常适合饰品服装分类背景。绪儿大佬其实推出了很多非常棒的模型，比如之前非常受大家喜欢的敦煌飞天、超梦幻场景等模型。下面我们来实际体验一下，看使用这个模型出来的图片效果如何吧。

2024-08-27 21:40:00 413

原创腾讯提出一种新的针对风格化角色和逼真服装动画的生成3D运动转移方法，生成效果逼真！

为风格化角色制作动画以匹配参考动作序列是电影和游戏行业中一项要求很高的任务。现有方法主要关注角色身体的刚性变形，而忽略了由物理动力学驱动的服装局部变形。它们以与身体相同的方式变形服装，导致结果细节有限且不切实际，例如身体与服装的穿透。相比之下，我们提出了一种新颖的方法，旨在通过逼真的服装动画实现高质量的运动传输。由于现有数据集缺乏生成逼真服装动画所需的注释，我们构建了一个名为 MMDMC 的新数据集，它将来自 MikuMikuDance 社区的风格化角色与现实世界的动作捕捉数据相结合。

2024-08-26 23:12:55 1285

原创腾讯&浙大提出定制化视频生成框架CustomCrafter，只需通过少量图像就可以完成高质量视频生成！

2024-08-26 23:10:34 1046

原创 ECCV2024｜港中文提出文本生成3D方法DreamDissector，能够生成具有交互的多个独立对象。

文本到 3D 生成最近取得了重大进展。为了增强其在实际应用中的实用性，生成具有交互的多个独立对象至关重要，类似于 2D 图像编辑中的层合成。然而，现有的文本到 3D 方法难以完成这项任务，因为它们旨在生成非独立对象或缺乏空间上合理交互的独立对象。为了解决这个问题，我们提出了 DreamDissector，这是一种能够生成具有交互的多个独立对象的文本到 3D 方法。DreamDissector 接受多对象文本到 3D NeRF 作为输入并生成独立的纹理网格。

2024-08-22 23:47:38 580

原创 ECCV 2024｜视觉数据挖掘领域重大突破！伯克利提出使用扩散模型作为数据挖掘工具！

本文展示了如何使用经过图像合成训练的生成模型作为视觉数据挖掘的工具。我们的见解是，由于当代生成模型学习了训练数据的准确表示，我们可以使用它们通过挖掘视觉模式来总结数据。具体来说，我们表明，在微调条件扩散模型以合成特定数据集中的图像后，我们可以使用这些模型来定义该数据集的典型性度量。该度量评估不同数据标签（例如地理位置、时间戳、语义标签，甚至疾病的存在）的典型视觉元素。这种通过综合分析的数据挖掘方法有两个关键优势。首先，它比传统的基于对应的方法扩展性好得多，因为它不需要明确比较所有视觉元素对。

2024-08-22 23:45:58 463

原创复旦提出新图像上色方法MultiColor，一键将黑白图还原上色，效果逼真！

深度网络在图像恢复任务（例如图像着色）中表现出色。然而，我们发现，以前的方法在着色流程中依赖于具有特定映射函数（即颜色空间）的单一颜色模型的数字表示。在本文中，我们首先研究不同颜色空间的建模，发现每个颜色空间都表现出独特的特征和独特的颜色分布。多个颜色空间之间的互补性为图像着色任务带来了好处。我们提出了一种新的基于学习的自动为灰度图像着色的方法 MultiColor，它结合了来自多个颜色空间的线索。具体来说，我们为单个颜色空间采用了一组专用的着色模块。

2024-08-22 23:44:03 514

原创虚拟试衣新SOTA！阿里提出Boow-VTON，解决野外试穿任务难题。

基于图像的虚拟试穿是一项越来越流行和重要的任务，用于生成特定人物的逼真的试穿图像。现有的方法总是使用精确的蒙版去除源图像中的原始服装，从而基于强大的扩散模型在简单和传统的试穿场景中实现逼真的合成图像。因此，获取合适的蒙版对于这些方法的试穿性能至关重要。然而，获得精确的修复蒙版，特别是对于包含各种前景遮挡和人物姿势的复杂野外试穿数据，并不容易，如图 1-Top 所示。这种困难通常会导致在更实际和更具挑战性的现实场景中表现不佳，例如图 1-Bottom 所示的自拍场景。

2024-08-22 23:41:57 754

原创设计师AI神器！AnyDesign,一张照片加简单描述就可以编辑时尚图像！

时尚图像编辑旨在根据给定的指令修改人物的外观。现有的方法需要辅助工具，如分割器和关键点提取器，缺乏灵活统一的框架。此外，这些方法处理的服装类型有限，因为大多数数据集都集中在干净背景中的人，只包括上衣、裤子和连衣裙等普通服装。这些限制限制了它们在现实场景中的适用性。在本文中，我们首先扩展了现有的人类生成数据集，以包括更广泛的服装和更复杂的背景。这个扩展的数据集包含穿着各种物品的人，如上衣、裤子、连衣裙、裙子、头饰、围巾、鞋子、袜子和包包。

2024-08-22 22:59:25 540

原创超越IP-Adapter！阿里提出UniPortrait，可通过文本定制生成高保真的单人或多人图像。

2024-08-19 20:18:52 817

原创顶刊IJCV2024 | 北大、哈工大、清华联合提出无需GT的自监督图像重建网络学习方法。代码已开源！

视觉信息智能学习实验室（VILLA）由张健助理教授于2019年创立并负责，专注于AI计算成像与底层视觉、可控内容生成与安全、三维场景理解等研究领域，已在Nature系列子刊Communications Engineering、SPM、TPAMI、IJCV、TIP、NeurIPS、ICLR、CVPR、ICCV和ECCV等高水平国际期刊和会议上发表了50余篇论文。

2024-08-19 20:17:02 574

原创超越AnimateAnyone！Meta提出全身 3D虚拟人技术ExAvatar，可通过简短视频克隆人像并转化为3D数字形象

ExAvatar 是全新富有表现力的全身 3D 高斯化身。结合了SMPL-X的全身（身体、手和脸）驾驶能力和3DGS的强大外观建模能力。通过随意拍摄的短手机扫描中性姿势约10秒制作而成。支持具有新颖的身体姿势、手势和面部表情的动画以及从任何视点的渲染。面部表情和手势对于表达我们的情感和与世界互动是必不可少的。尽管如此，从随意拍摄的视频中建模的大多数 3D 虚拟人仅支持没有面部表情的身体动作。

2024-08-18 22:35:59 1230

原创轻量高效的ControlNet开源 | ControlNetXt：支持主流生成架构，可与LoRA无缝集成！

扩散模型在图像和视频生成方面都表现出了卓越而强大的能力。为了更好地控制生成结果，研究人员引入了额外的架构如ControlNet、Adapters和ReferenceNet，以集成条件控制。然而，当前的可控生成方法通常需要大量额外的计算资源，尤其是对于视频生成，并且在训练中面临挑战或表现出较弱的控制力。在本文中，我们提出了 ControlNeXt：一种强大而有效的可控图像和视频生成方法。我们首先设计了一个更直接、更高效的架构，与基础模型相比，以最小的额外成本替换了繁重的额外分支。

2024-08-18 22:34:01 906

原创 Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D

title:Stability AI发布了单目视频转4D模型的新AI模型：Stable Video 4D开放生成式人工智能初创公司Stability AI在3月发布了Stable Video 3D，是一款可以根据图像中的物体生成出可旋转的3D模型视频工具。Stability AI在7月24日发布了新一代的Stable Video 4D，增添了赋予3D模移动作的功能。Stable Video 4D能在约40秒内生成8个视角的5帧视频，整个4D优化过程大约需要20到25分钟。

2024-08-18 22:32:34 1170

原创 ECCV2024｜商汤发布3D面部动画系统UniTalker：通过统一模型扩展音频驱动的 3D 面部动画

音频驱动的 3D 面部动画旨在将输入音频映射到逼真的面部运动。尽管取得了重大进展，但由于 3D 注释不一致而产生了限制，将以前的模型限制在特定注释上进行训练，从而限制了训练规模。在这项工作中，我们提出了 UniTalker，这是一个统一的模型，具有多头架构，旨在有效利用具有不同注释的数据集。为了增强训练稳定性并确保多头输出之间的一致性，我们采用了三种训练策略，即 PCA、模型预热和枢轴身份嵌入。为了扩大训练规模和多样性，我们组装了 A2F-Bench，包括五个公开可用的数据集和三个新整理的数据集。

2024-08-18 22:31:28 704

原创 ACM MM 2024，复旦&腾讯优图等提出MDT-A2G，可根据说话语音同步生成手势

Diffusion Transformer领域的最新进展大大提高了高质量二维图像、三维视频和三维形状的生成。然而，Transformer 架构在同语音手势生成领域的有效性仍然相对未被探索，因为之前的方法主要采用卷积神经网络 (CNN) 或简单的几个变换器层。为了弥补这一研究空白，我们引入了一种用于同语音手势生成的新型掩蔽Diffusion Transformer，称为 MDT-A2G，它直接在手势序列上实现去噪过程。为了增强时间对齐的语音驱动手势的上下文推理能力，我们采用了一种新型的掩蔽扩散变换器。

2024-08-18 22:30:18 706

原创 3D生成效果新SOTA！北大&新加坡国立提出Cycle3D，可以创建高质量一致性的3D内容。

最近的 3D 大型重建模型通常采用两阶段过程：首先通过多视图扩散模型生成多视图图像，然后利用前馈模型将图像重建为 3D 内容。然而，多视图扩散模型通常会产生低质量和不一致的图像，从而对最终的 3D 重建质量产生不利影响。为了解决这个问题，我们提出了一个统一的 3D 生成框架 Cycle3D，该框架在多步扩散过程中循环使用基于 2D 扩散的生成模块和前馈 3D 重建模块。在去噪过程中，2D 扩散模型还可以控制未见视图的生成并注入参考视图信息，从而增强 3D 生成的多样性和纹理一致性。

2024-08-12 23:00:34 1000

原创 ECCV 2024 | 3D数字人生成来了！南洋理工提出三维数字人生成新范式StructLDM：高质量可控并支持编辑。

近期，3D 人体生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显著进展。然而，现有的 3D 人体生成方法在紧凑的一维潜在空间中对人体进行建模，忽略了人体拓扑的清晰结构和语义。在本文中，我们探索了用于 3D 人体建模的更具表现力和更高维度的潜在空间，并提出了 StructLDM，这是一种基于扩散的无条件 3D 人体生成模型，该模型是从 2D 图像中学习的。StructLDM 通过三个关键设计解决了由于潜在空间高维增长而带来的挑战：在统计人体模板的稠密表面流形上定义的语义结构化潜在空间。

2024-08-12 22:59:00 491

原创 ECCV2024，清华&百度提出ReSyncer：可实现音频同步嘴唇动作视频生成。

使用给定的音频对口型视频是各种应用的基础，包括创建虚拟主持人或表演者。虽然最近的研究探索了使用不同技术的高保真口型同步，但它们的任务导向模型要么需要长期视频进行特定片段的训练，要么保留可见的伪影。在本文中，我们提出了一个统一有效的框架 ReSyncer，它可以同步广义的视听面部信息。关键设计是重新审视和重新连接基于风格的生成器，以有效采用由原则性风格注入的 Transformer 预测的 3D 面部动态。通过简单地重新配置噪声和风格空间内的信息插入机制，我们的框架将运动和外观与统一的训练融合在一起。

2024-08-07 23:09:58 1388

原创从“抠图”到“抠视频”,Meta上新AI工具SAM 2。

Segment Anything Model 2 (SAM 2)，这是Meta Segment Anything Model的下一代，现在支持视频和图像中的对象分割。SAM 2 是第一个用于实时、可提示的图像和视频对象分割的统一模型，它使视频分割体验发生了重大变化，并可在图像和视频应用程序中无缝使用。SAM 2 在图像分割精度方面超越了之前的功能，并且实现了比现有工作更好的视频分割性能，同时所需的交互时间减少了三倍。

2024-08-06 23:20:02 957

原创最强开源文生图模型一夜易主！SD一作、Stabililty AI核心成员Robin Rombach下场创业了，一出手就是王炸。

时隔4个月，开源文生图模型霸主Stable Diffusion原班人马再创业！2024年8月1日官宣：Black Forest Labs成立，公司的第一个产品FLUX.1系列模型包含专业版、开发者版、快速版三种模型，效果直接秒杀Midjourney、DALL-E和Stable Diffusion！目前已获3200万美元融资。据官方消息，文生图只是一个开始，后续还将发布视频生成模型，准备和Sora和Gen-3等产品过招。

2024-08-05 22:48:23 721

原创深度剖析Google黑科技RB-Modulation：告别繁琐训练，拥抱无限创意生成和风格迁移！

我们提出了基于参考的调制 (RB-Modulation)，这是一种无需训练即可个性化扩散模型的即插即用型新解决方案。现有的无需训练的方法在以下方面存在困难：在没有额外风格或内容文本描述的情况下从参考图像中提取风格，从参考风格图像中泄漏不必要的内容有效地组合风格和内容。RB-Modulation 建立在一种新颖的随机最优控制器上，其中风格描述符通过终端成本对所需属性进行编码。由此产生的漂移不仅克服了上述困难，而且还确保了参考风格的高保真度并遵循给定的文本提示。

2024-07-31 23:14:19 949

原创 ECCV 2024前沿科技速递：GLARE-基于生成潜在特征的码本检索点亮低光世界，低光环境也能拍出明亮大片！

大多数现有的低光图像增强 (LLIE) 方法要么直接将低光 (LL) 映射到正常光 (NL) 图像，要么使用语义或照明图作为指导。然而，LLIE 的病态性质和从受损输入中进行语义检索的难度限制了这些方法，尤其是在极低光照条件下。为了解决这个问题，我们通过基于生成性潜在特征的码本检索 (GLARE) 提出了一种新的 LLIE 网络，其中使用矢量量化 (VQ) 策略从未退化的 NL 图像中得出码本先验。

2024-07-31 23:12:00 886

原创中山大学与Pixocial联手提出CatVTON：轻量化架构与高效训练，助力虚拟试衣技术落地应用！

基于扩散模型的虚拟试戴方法实现真实的试穿效果，但复制骨干网络作为参考网或利用额外的图像编码器来处理条件输入，导致高训练和推理成本。在这项工作中，我们重新思考了ReferenceNet和图像编码器的必要性，并对其进行了创新设计了一种简单高效的虚拟试戴扩散模型CatVTON。它可以方便地将任意类别的店内或穿过的服装无缝转移到目标人群将它们在空间维度上连接起来作为输入。模型的有效性体现在三个方面:轻量级的网络。只有原来的扩散模块，不需要额外的网络模块。

2024-07-28 23:35:31 521

原创超逼真AI生成电影来了！《泰坦尼克号》AI重生！浙大&阿里发布MovieDreamer，纯AI生成电影引爆热议！

视频生成领域的最新进展主要利用了短时内容的扩散模型。然而，这些方法往往无法对复杂的叙事进行建模，也无法在较长时间内保持角色的一致性，而这对于电影等长篇视频制作至关重要。我们提出了 MovieDreamer，这是一种新颖的分层框架，它将自回归模型的优势与基于扩散的渲染相结合，开创了具有复杂情节发展和高视觉保真度的长时视频生成。我们的方法利用自回归模型实现全局叙事连贯性，预测视觉标记序列，然后通过扩散渲染将其转换为高质量的视频帧。这种方法类似于传统的电影制作过程，将复杂的故事分解为可管理的场景捕捉。

2024-07-28 22:54:06 1001

原创一键解锁百变发型！上交联合Tiamat震撼发布Stable-Hair发型移植黑科技！

目前的头发移植方法难以处理多样而复杂的发型，因此限制了它们在现实场景中的适用性。在本文中，我们提出了一种基于扩散的新型头发移植框架Stable-Hair，它可以将各种现实世界的发型稳健地移植到用户提供的脸上，以供虚拟试穿。为了实现这一目标，我们的 Stable-Hair 框架设计为两阶段管道。在第一阶段，我们训练秃头转换器和稳定扩散，以从用户提供的脸部图像中去除头发，从而得到秃头图像。

2024-07-25 21:11:53 713

原创 [ECCV 2024] [复旦]RECE：扩散模型概念移除，只需3秒即可充分移除风险概念！

为了解决上述问题，研究团队提出了一种可靠、高效的概念移除方法（RECE）。该方法以解析解的形式，迭代地进行风险概念移除、风险概念嵌入推导，从而确保模型彻底移除风险概念。RECE借鉴了对抗训练的思想，通过计算目标函数的解析解，高效地推导出新的风险概念嵌入，然后通过修改交叉注意力层，将它们与无害概念对齐。此外，为了保留模型的生成能力，RECE在嵌入推导过程中证明并引入了一个额外的正则项，从而最小化对生成能力的损害。可靠高效的概念移除前置知识。

2024-07-24 21:55:28 480

原创 3D虚拟试穿来了，上大、腾讯等提出ClotheDreamer，数字人也能实现穿，脱衣自由！

从文本合成高保真 3D 服装对于数字化身创建来说既是理想的也是具有挑战性的。最近基于扩散的分数蒸馏采样 (SDS) 方法已经实现了新的可能性，但要么与人体错综复杂地耦合，要么难以重复使用。我们介绍了 ClotheDreamer，这是一种基于 3D 高斯的方法，用于从文本提示生成可穿戴、可用于生产的 3D 服装资产。我们提出了一种新颖的表示解缠结服装高斯溅射 (DCGS) 来实现单独优化。DCGS 将穿衣的化身表示为一个高斯模型，但冻结了身体高斯溅射。

2024-07-23 21:56:48 653

原创腾讯开源SEED-Story：AI续写小说还能自动配图！

随着图像生成和开放格式文本生成的显著进步，交错图像文本内容的创建已成为一个越来越有趣的领域。多模态故事生成的特点是以交错的方式生成叙述性文本和生动的图像，已成为一项有价值且实用的任务，具有广泛的应用。然而，这项任务带来了重大挑战，因为它需要理解文本和图像之间复杂的相互作用，并能够生成长序列的连贯、上下文相关的文本和视觉效果。在这项工作中，我们提出了 SEED-Story，这是一种利用多模态大型语言模型 (MLLM) 生成扩展多模态故事的新方法。

2024-07-19 23:51:57 800