沉迷单车的追风少年
CSDN博客专家,CSDN商业化专家,官方内容合作伙伴,官方认证“人工智能领域优质创作者”,入选2023年中国开发者影响力年度榜单。
代表专栏《Diffusion Models与深度学习》、《手把手写深度学习》、《深度学习-计算机视觉》、《手把手写C++服务器》等。
展开
-
Diffusion Models视频生成-博客汇总
Diffusion Models视频生成-博客汇总原创 2023-10-28 12:44:08 · 3308 阅读 · 31 评论 -
Diffusion models代码解读:入门与实战
Diffusion models代码解读:系列文章汇总导航原创 2022-09-24 12:08:13 · 13363 阅读 · 63 评论 -
Diffusion Models专栏文章汇总:入门与实战
《Diffusion Models与深度学习》专栏文章导航原创 2022-02-21 21:55:40 · 33880 阅读 · 43 评论 -
ECCV2024中有哪些值得关注的扩散模型相关的工作?
通过广泛的人类评估和基于GPT的组合评估,RFNet在生成现实和幻想场景方面优于现有方法。实验结果表明,RFNet在处理需要高度创造力和抽象思维的提示时,能够生成更准确、更具一致性的图像,展示了其在文本到图像生成任务中的优越性能。研究者们提出了Realistic-Fantasy Network (RFNet),这是一种无需训练的方法,通过将扩散模型与大型语言模型(LLMs)集成,增强了对提示的理解能力。模型展示了在零样本情况下,通过文本引导生成任意尺寸图像的能力,并且生成的图像具有丰富的上下文和高分辨率。原创 2024-07-21 19:45:00 · 4336 阅读 · 2 评论 -
源码剖析:详细解读基于DiT结构的视频生成模型EasyAnimate
Sora发布半年之后,开源社区也有很多有影响力的工作如Open-Sora、EasyAnimate、Open-Sora-Plan等,这些都复现了Sora里面的经典思想。这篇博客以《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》为例,详细解读EasyAnimate的代码,希望对follow Sora的读者有所帮助。原创 2024-07-21 10:30:00 · 235 阅读 · 2 评论 -
每日AIGC最新进展(51):昆仑万维震撼发布16B DiT-MoE图像生成模型、东北大学提出使用去噪神经权重进行高效训练、美团提出视频扩散模型量化方法
本文介绍了DiT-MoE,一种可扩展的稀疏变分Transformer模型,它在保持与密集网络竞争力的同时,实现了高度优化的推理。通过共享专家路由和专家级平衡损失设计,DiT-MoE捕获了共同知识并减少了不同路由专家之间的冗余。原创 2024-07-18 11:24:17 · 682 阅读 · 2 评论 -
源码剖析:MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
最近一年有很多非常火的人类跳舞视频生成的工作,最近腾讯出品了基于SVD模型的MimicMotion,是目前生成结果最好,效果最稳定,分辨率最高,人物ID特征保持最好的工作,这篇博客结合论文原理和细节,深入解读《MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance》的代码。原创 2024-07-17 21:09:52 · 475 阅读 · 2 评论 -
每日AIGC最新进展(48):腾讯提出Rich-Contextual Conditional Diffusion Models、OPPO提出自动生成复杂字形海报模型、南京大学提出基于Mamba插帧模型
本文提出了一种新颖的富语境条件扩散模型(Rich-contextual Conditional Diffusion Models, RCDMs),旨在增强故事可视化中的语义和时间一致性。文章首先指出现有方法在生成连贯故事时,往往忽视了上下文的一致性和相关性。接着,作者提出了一个两阶段的方法:第一阶段利用框架先验Transformer扩散模型预测未知片段的框架语义嵌入;第二阶段通过丰富的上下文条件建立强大的模型,包括已知片段的参考图像、未知片段的预测框架语义嵌入和所有字幕的文本嵌入,以实现图像和特征层面的联合原创 2024-07-13 08:15:00 · 623 阅读 · 2 评论 -
Data-Juicer:阿里巴巴荣誉出品的大模型数据清洗框架
如何优雅地进行大规模数据清洗是一门艺术,特别对于大模型,数据的质量是决定模型成功最关键的因素之一。阿里巴巴最近开源了一项专门针对大语言模型和视频生成大模型的数据清洗框架,值得关注!原创 2024-07-08 08:15:00 · 1196 阅读 · 2 评论 -
每日AIGC最新进展(44):谷歌提出遮挡物体的3D重建技术SpotLessSplats、英伟达提出体素网格超分方法ASSR-NeRF、莫纳什大学提出长视频理解测评标准InfiniBench
本文介绍了一种名为SpotlessSplats(简称SLS)的新技术,用于3D场景重建,特别是在存在临时遮挡物的情况下。SLS基于3D高斯Splatting(3DGS)技术,通过利用预训练的通用特征和强大的优化方法,有效忽略了短暂的干扰因素。这项技术在视觉和定量上都达到了最先进的重建质量,适用于日常捕获的场景。原创 2024-07-07 22:15:00 · 359 阅读 · 3 评论 -
每日AIGC最新进展(40):Lehigh大学发表个性化扩散模型中捷径学习的研究、上海AI Lab提出通过结合多种控制信号控制图像生成AnyControl、MIT提出基于扩散模型的合成图像分解
本文研究了个性化扩散模型在对抗性扰动下的脆弱性,并提出了一种新的净化方法以提高模型在受保护图像数据集上的鲁棒性。个性化扩散模型能够通过少量图像微调预训练的文本到图像模型,生成特定主体的图像,但研究发现这些模型容易受到小的对抗性扰动,导致在损坏数据集上的性能大幅下降。原创 2024-07-02 22:30:00 · 639 阅读 · 2 评论 -
每日AIGC最新进展(39):斯坦福大学提出单目视频的新视图生成DGMarbles、玛丽女王大学提出基于单幅图像的神经网络材质外观建模方法、ViVo研究院提出从单目视频中重建出高保真的3D人体头像
本文介绍了一种新的方法,名为Dynamic Gaussian Marbles(DGMarbles),旨在提高从日常单目视频中合成新视图的质量。DGMarbles通过三个核心改进克服了单目设置的不足,包括使用各向同性的高斯“球体”简化模型,采用分而治之的学习策略优化全局一致性的运动,以及引入图像和几何级别的先验知识来引导优化过程。原创 2024-06-30 20:00:00 · 607 阅读 · 2 评论 -
每日AIGC最新进展(36):以色列Lightricks提出视频中眼镜擦除技术V-LASIK、史蒂文斯理工学院提出实时交互式数字头像框架RITA、清华大学提出神经残差扩散模型Neural-RDM
V-LASIK的核心方法包括三个阶段:数据生成、模型微调和视频编辑流程。首先,通过佩戴眼镜的人物视频生成合成数据对;然后,使用调整过的图像到图像扩散模型对这些数据进行微调,以生成不戴眼镜的真实视频帧;最后,结合运动先验模块,实现时间上连贯的视频编辑。原创 2024-06-25 11:21:17 · 751 阅读 · 2 评论 -
每日AIGC最新进展(35):字节跳动提出人物肖像动画X-Portrait、字节跳动提出组合式视频编辑Edit3K、东华大学提出基于GCN的草图建模方法DC-gra2seq
X-Portrait是由字节跳动美国团队开发的创新条件扩散模型,专门用于生成富有表现力且时间连贯的肖像动画。该技术能够根据单一肖像图像作为外观参考,结合驱动视频中的动作,捕捉高度动态和微妙的面部表情以及广泛的头部运动。X-Portrait的核心是一个预训练的扩散模型,作为渲染骨干,同时在ControlNet框架内通过新颖的控制信号实现精细的头部姿势和表情控制。与传统的基于面部标志点的粗略显式控制相比,X-Portrait的运动控制模块能够直接从原始驱动RGB输入中解释动态,并通过基于补丁的局部控制模块增强对原创 2024-06-23 08:15:00 · 650 阅读 · 4 评论 -
每日AIGC最新进展(34):特拉维夫大学提出多主题扩散模型Be Yourself、阿里巴巴提出个性化人脸生成方法FlashFace、清华大学提出快速评估扩散模型方法FlashEval
本文探讨了文本到图像生成领域中的一个关键问题:如何在生成包含多个主题的图像时,保持每个主题的语义准确性和视觉独特性。现有的文本到图像扩散模型在处理具有多个语义或视觉相似主题的复杂输入提示时,往往难以准确捕捉意图语义,主要原因是在去噪过程中主题间不经意的语义泄露。这种泄露是由于扩散模型的注意力层倾向于混合不同主题的视觉特征,导致信息在主题间流动,从而影响了图像的生成质量。原创 2024-06-22 08:30:00 · 1481 阅读 · 1 评论 -
Unet已死,Transformer当立!详细解读基于DiT的开源视频生成大模型EasyAnimate
最近阿里云PIA团队开源了基于Diffusion Transformer结构的视频生成模型EasyAnimate,并且提出了专门针对视频的slice VAE,对于目前基于Unet结构的视频生成最好如SVD形成了降维打击,不论是生成质量、生成时长上都是遥遥领先。这篇博客详细解读一下EasyAnimate的技术报告《EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture》原创 2024-06-21 10:57:17 · 1420 阅读 · 6 评论 -
每日AIGC最新进展(31):新加坡国立大学提出视频生成人类评估协议、加州大学提出视频生成测试基准TC-Bench、清华大学提出视频编辑新方法COVE
本文提出了一种新的文本到视频(T2V)模型的人类评估协议(T2VHE),旨在提高评估的可靠性、可重复性和实用性。随着T2V技术的快速发展,传统的评估方法面临挑战,尤其是在自动度量的限制下,人工评估成为更值得信赖的方法。然而,现有的人工评估协议存在可重复性、可靠性和实用性的问题。原创 2024-06-18 08:15:00 · 686 阅读 · 2 评论 -
每日AIGC最新进展(28):鹏城实验室提出连贯的故事生成框架StoryImager、浙大强化学习提升扩散模型生成质量算法PXPO、谷歌提出生成中文/日文/韩文字符的扩散模型
本文介绍了一种名为StoryImager的新型统一高效框架,用于连贯的故事可视化和完成。该框架旨在基于故事情节生成一系列真实且连贯的图像。StoryImager通过双向生成能力,克服了现有模型在自回归生成方式、高计算成本和独立训练推断等方面的限制。它通过引入目标帧遮蔽策略、帧-故事交叉注意力模块和上下文特征提取器,提高了故事图像生成的质量和连贯性。原创 2024-06-15 07:45:00 · 871 阅读 · 2 评论 -
每日AIGC最新进展(27):用于视频生成的ControlNets Ctrl-Adapter、无缝循环视频生成LoopAnimate、高分辨率大型视觉-语言模型InternLM-XComposer2
本文介绍了CTRL-Adapter,这是一个高效且多功能的框架,用于将多样化的空间控制适配到任何图像或视频扩散模型上。该框架旨在解决现有预训练图像ControlNets在视频生成中的两大挑战:无法直接适配新骨干模型和难以处理视频帧间的时间一致性。CTRL-Adapter通过适配预训练的ControlNets,同时保持其和扩散模型的参数不变,实现了对视频的强有力控制,包括视频控制、多条件控制、稀疏帧控制等,并显著降低了计算成本。原创 2024-06-14 07:45:00 · 804 阅读 · 4 评论 -
每日AIGC最新进展(26):Rutgers大学提出单步视频生成模型SF-V、快手提出组合式文生视频模型VideoTetris、微软亚洲研究院提出频到音乐生成框架VidMuse
本文提出了一种新的单步视频生成模型SF-V,通过对抗训练对预训练的视频扩散模型进行微调,显著提高了视频生成的速度和质量。传统基于扩散的视频生成模型虽然能够生成高保真视频,但需要多次去噪步骤,计算成本高。SF-V模型仅需单次前向传播即可生成高质量且运动一致性高的视频,大大减少了去噪过程的计算开销,为实时视频合成和编辑铺平了道路。原创 2024-06-13 23:33:43 · 602 阅读 · 2 评论 -
每日AIGC最新进展(25):复旦大学提出参数高效微调框架Adapter-X、上海交通大学提出大型多模态模型新测试标准A-Bench、腾讯提出统一多模态布局生成框架PosterLLaVa
本文提出了一种新的参数高效微调框架ADAPTER-X,旨在解决视觉模型在不同任务间平衡高效率与良好泛化能力的问题。随着基础模型规模的增长,参数高效微调(PEFT)变得尤为重要。ADAPTER-X通过引入Sharing Mixture of Adapters(SMoA)模块,实现了在不同块之间共享适配器,增加了可训练参数的数量,并通过动态分配策略优化了参数的使用效率。原创 2024-06-12 07:45:00 · 858 阅读 · 1 评论 -
每日AIGC最新进展(21):清华大学提出从人体运动和视频中理解人类行为MotionLLM、武汉大学提出连贯的声音和全身动作RapVerse、浙江大学Streaming Video Diffusion
通过大量实验,研究者证明了他们的统一生成框架不仅能够直接从文本输入生成一致和现实的歌唱声音及人体动作,而且与专门的单模态生成系统相比,性能也具有竞争力,为声音和动作的联合生成树立了新的基准。作者还进行了消融研究,分析了训练视频长度对模型性能的影响,以及所提出空间感知时间记忆的有效性,进一步证实了SVDiff在在线视频编辑任务中的优越性能。此外,研究者提出了一个简单的但有效的统一框架,用于从文本中联合生成歌唱声音和人体动作,采用多模态变换器以自回归的方式进行。这项任务超越了以往研究,,以实现高效的视频编辑。原创 2024-06-07 08:00:00 · 610 阅读 · 1 评论 -
每日AIGC最新进展(22):中国科学院大学提出Zoro-shot视频插帧算法、Adobe研究院提出高效视频扩散模型的叠加网络搜索架构SNED、蚂蚁集团提出视频深度估计算法ChronoDepth
提出了一种名为ZeroSmooth的无需训练的视频插值方法,用于提高预训练视频扩散模型生成高帧率视频的能力。该方法无需额外训练数据和参数更新,即可实现比训练时高4倍的帧率生成。视频生成技术近年来取得了显著进展,尤其是视频扩散模型的出现,使得许多模型能够生成逼真的合成视频。然而,由于GPU内存限制和建模大帧集的困难,大多数视频模型只能生成低帧率视频。原创 2024-06-08 08:00:00 · 979 阅读 · 2 评论 -
每日AIGC最新进展(23):魁北克人工智能研究所提出扩展注意力机制视频编辑、浙江大学提出video-to-Audio生成算法Frieren、清华大学提出扩散模型参数高效迁移学习Diff-Tuning
本文提出了一种用于视频编辑的新方法,旨在通过扩展注意力机制实现视频中对象编辑的时间一致性。该方法基于预训练的图像修复扩散模型,通过重新设计模型的前向路径,将自注意力模块替换为扩展注意力模块,创建帧级依赖关系,确保编辑信息在所有视频帧中保持一致性。这与以往的方法相比,无论遮罩区域的形状和位置如何,都能实现更好的一致性。原创 2024-06-09 08:00:00 · 814 阅读 · 2 评论 -
每日AIGC最新进展(17):具有边缘引导运动细化的基于事件的视频帧插值、具有连续布朗桥扩散的帧插值、
视频帧插值,即在连续视频帧之间合成中间帧的过程,随着事件摄像机的使用已经取得了显著的进展。然而,当代基于事件的视频帧插值(E-VFI)技术往往忽略了这样一个事实,即在多模态特征融合过程中,事件数据主要提供场景边缘的高置信度特征,从而削弱了事件信号在光流(of)估计和翘曲细化中的作用。本文提出了一种新的基于事件的视频帧插值方法,与传统的基于帧的方法相比,该方法利用边缘引导运动细化来显著提高插值帧的质量。作者在几个基于事件的视频数据集上评估了他们的方法,并展示了与最先进的基于帧的方法相比,插值质量的显着改进。原创 2024-06-01 08:00:00 · 1212 阅读 · 2 评论 -
每日AIGC最新进展(16):华为诺亚实验室提出通过混合mask信息融合增强文本到图像编辑、腾讯优图实验室提出风格化图像生成算法、清华大学提出扩散模型中的概念域校正和概念保留
以减少编辑过程中的干扰。研究者们创建了一个与目标图像形状一致的中间图像,并利用T2I Adapter等条件生成模型来确保像素间的相关性与理想目标图像一致。在生成目标图像时,MaSaFusion在给定的编辑区域内融合了中间图像的自注意力图,而在区域外则保持源图像的特征不变。这种方法有效地分离了编辑过程中的特征保留和新特征生成,从而减轻了它们之间的干扰。实验结果表明,MaSaFusion在真实世界图像编辑任务中表现出色。原创 2024-05-31 08:00:00 · 823 阅读 · 2 评论 -
每日AIGC最新进展(15):英特尔提出AdvUnlearn增强概念擦除方面的鲁棒性、扩散模型中的梯度有效性研究、代尔夫特理工大学提出SFDDM扩散模型单次蒸馏法
本文提出了一种名为AdvUnlearn的新型机器“反学习”框架,旨在增强扩散模型(DMs)在概念擦除方面的鲁棒性。DMs在文本到图像生成方面取得了显著成功,但存在安全风险,如生成有害内容和版权侵犯。传统的概念擦除技术容易受到对抗性提示攻击的影响,AdvUnlearn通过整合对抗性训练(AT)的原则,提升了DMs在擦除概念后的鲁棒性。原创 2024-05-30 08:00:00 · 717 阅读 · 2 评论 -
每日AIGC最新进展(11):角色脸妆生成、防止微调Stable Diffusion过拟合的方法、通过 3D Gaussian Splatting 进行特定于说话者的头部说话合成
大量的实验结果表明,GaussianTalker在说话头合成方面优于现有的最先进的方法,提供精确的嘴唇同步和卓越的视觉质量。为了解决这些限制,我们推出了华丽,一种新颖的基于扩散的化妆应用方法,超越了简单的转移,通过创新地制作独特和主题的面部化妆。为了应对这一挑战,我们首先分析了过拟合,将其分类为概念不可知的过拟合,这破坏了非定制的概念知识,以及概念特定的过拟合,这仅限于定制有限的模式,即背景,布局,样式。大量的实验还表明,我们的方法在单概念和多概念定制生成方面都优于最先进的方法。原创 2024-05-26 07:45:00 · 1213 阅读 · 2 评论 -
每日AIGC最新进展(10):符号音乐生成SYMPLEX、新型图像编辑数据集ReasonPix2Pix、角色一致性插画生成、高级的风格个性化扩散模型
符号音乐生成SYMPLEX、新型图像编辑数据集ReasonPix2Pix、角色一致性插画生成、高级的风格个性化扩散模型。改进文本到图像生成模型的微调过程,以实现更高级的风格个性化。现有的深度学习模型,如Stable Diffusion,在视觉艺术创作中应用广泛,但面临过拟合、生成结果不稳定和难以精确捕捉创造者所需特征等挑战。TriLoRA通过将奇异值分解(SVD)整合到低秩适应(LoRA)参数更新策略中,有效降低了过拟合风险,增强了模型输出的稳定性,并更准确地捕捉到创造者所需的微妙特征调整。原创 2024-05-25 14:03:12 · 384 阅读 · 2 评论 -
代码实战:使用Stable Diffusion完成虚拟模特换衣任务
之前在博客《解读DreamPose:基于Diffusion Models的模特视频生成》中介绍了如何生成模特换衣的视频,在电商场景下得到了广泛的应用。由于视频生成的技术还不太成熟,但是模特换衣图片生成却非常成熟,这篇博客从代码角度讲解如何完成这一任务。原创 2024-05-23 14:18:08 · 1330 阅读 · 4 评论 -
每日AIGC最新进展(8):使用扩散模型进行基于几何的图像编辑、将扩散模型提炼成条件GANs、任意分辨率和时长视频生成的DiT模型、One-Shot 人脸Talk视频生成
在这份技术报告中,我们介绍了Lumina-T2X系列——一系列基于流的大型扩散变压器(Flag-DiT),配备了零初始化注意力,作为一个统一的框架,旨在将噪声转换为图像、视频、多视图3D对象和文本指令条件下的音频片段。我们提出了GeoDiffuser,这是一种基于零镜头优化的方法,它将常见的基于2D和3D图像的对象编辑功能统一到一个方法中。我们的无需训练的优化方法使用目标函数,力求保持对象风格,但生成可信的图像,例如具有准确的光照和阴影。我们提出了定量结果,包括一项感性研究,表明我们的方法比现有方法更好。原创 2024-05-23 07:45:00 · 994 阅读 · 4 评论 -
每日AIGC最新进展(7):频域引导的超分扩散模型、同时生成自然的说话面孔和语音输出Text-to-Speaking Face、4D全景场景图生成、语义感知的协同语音手势合成
作者还探讨了PSG4DFormer的变种,包括去除时间编码器和深度分支的版本,实验结果强调了深度信息和时间注意力在4D场景图生成任务中的重要性。此外,通过消融研究,验证了系统中各个组件的有效性,如基于LLM的检索模型、手势标记器的架构以及语义感知对齐模块。此外,该框架不需要额外的音频编码器,并且通过联合训练消除了微调过程的需要,从而在生成结果中产生更好的唇部同步。实验结果表明,FDDiff在回归导向和感知导向的度量标准上均优于先前的生成方法,实现了高质量的超分辨率。为了促进这一新领域的研究,原创 2024-05-22 07:45:00 · 897 阅读 · 2 评论 -
条件扩散模型中无分类器指导(Classifier-free Guidance)为什么比有分类器指导(Classifier Guidance)更好?
之前在博客《条件DDPM:Diffusion model的第三个巅峰之作》和《无分类器指导的Classifier-free Diffusion Models技术》中讨论了分类器引导作为经典的条件引导方法在Diffusion Models中的应用。有读者私信我问:条件扩散模型中无分类器指导(Classifier-free Guidance)为什么比有分类器指导(Classifier Guidance)更好?为什么会一直流行至今,成为条件扩散模型的标准做法?这篇博客在前两篇博客的基础上再深入解析。原创 2024-05-21 12:04:50 · 902 阅读 · 2 评论 -
每日AIGC最新进展(6):视觉一致插图序列生成、阿里巴巴电商人物产品互动图生成、Text-to-Vector生成、多视图扩散模型3D重建
实验结果显示,CAT3D在少视图3D重建任务上取得了定性和定量的改进,与先前的工作相比,在多个基准上实现了更好的性能。此外,CAT3D在从单图像到3D的任务中也展现了高效的性能,能够快速生成多样化的3D内容,同时在保持输入图像细节方面表现出色。在与现有方法的定量和定性比较中,作者的方法在多个指标上均优于其他方法,包括路径平滑度、图形简单性、层语义、图像质量和文本对齐。这项技术不仅大幅减少了创建3D场景所需的时间和资源,而且在质量和效率上都超越了现有的单图像和少视图3D场景创建方法。本文提出了一种新方法原创 2024-05-21 07:45:00 · 1376 阅读 · 2 评论 -
每日AIGC最新进展(5):卷积神经网络在空间频率域中的对抗性鲁棒性、预训练多模态模型的情感认知合理性、3D Gaussian Splatting在实际应用中的高效渲染
本研究探讨了预训练多模态模型CLIP在识别抽象视觉艺术所引发情感的认知合理性。研究者利用包含与情感标签相关联的图像和人类注释者提供的文字理由的数据集,分析了理由的语言特征,对图像和理由进行了零样本情感分类,并研究了颜色与情感的关联。研究发现CLIP在解码抽象图像和理由中的情感复杂性方面与人类认知过程的对齐程度不高。研究使用了FeelingBlue数据集,该数据集旨在通过视觉元素(如线条、笔触、形状)和语言来审查颜色在语言和艺术中的情感含义。原创 2024-05-20 07:45:00 · 728 阅读 · 2 评论 -
每日AIGC最新进展(4):个性化的文本到图像生成、将复杂的多步扩散模型简化为单步条件生成对抗网络学生模型、文本驱动的快速3D室内场景生成
通过广泛的实验,FastScene在生成速度和质量方面均超越了其他方法,并且更好地保持了场景的一致性。特别值得一提的是,FastScene仅需15分钟就能根据文本提示生成一个3D场景,比现有最先进的方法至少快一个小时。此外,作者还对FastScene在现有全景数据集上的适应性进行了扩展实验,验证了其在不同分辨率全景数据上的3D场景重建能力,并与基于NeRF的方法进行了比较,展示了FastScene在渲染质量上的优势。原创 2024-05-19 07:30:00 · 795 阅读 · 2 评论 -
每日AIGC最新进展(3):基于Diffusion Models的个性化内容生成综述、连续布朗桥的视频插帧算法、文本到图像扩散模型中记忆的实用分析
近年来,文本引导的图像生成技术,特别是基于扩散模型的方法,取得了显著进展。这些技术在商业系统和社区中的应用越来越广泛,如Stable Diffusion、Midjourney、DALL·E 2/3和Imagen等。然而,研究发现这些模型存在对训练图像的过度记忆问题,可能导致版权侵犯和隐私泄露。本文针对文本到图像的扩散模型中的记忆力问题进行了实际分析,旨在量化分析一组受保护的图像,并提出了一种无需收集大量提示的实际分析方法。原创 2024-05-18 11:58:18 · 549 阅读 · 2 评论 -
每日AIGC最新进展(2):中国风景视频生成大模型、通过视频生成与 3D 对象进行基于物理的交互、无分类器指导权重调度器分析
受传统技术的限制,这些艺术作品在古代局限于静态图像,将风景的动态和艺术情感的微妙之处留给了观者的想象力。具体而言,我们提出了一个动态模块,具有双重注意机制,以捕捉风景图像的动态变换,同时引入了噪声适配器,利用潜在空间中的无监督对比学习。与无条件或文本条件的动态生成不同,动作条件的动态生成需要感知物体的物理材料特性,并将3D运动预测与这些特性(如物体的刚度)联系起来。我们提出了PhysDreamer,这是一种基于物理的方法,通过利用视频生成模型学到的物体动态先验知识,赋予静态3D物体交互式动态。原创 2024-05-17 11:01:58 · 882 阅读 · 2 评论 -
每日AIGC最新进展(1):交互式可控3D生成、用于大词汇量3D生成的3D Diffusion Transformer、基于Dense Blob的Diffusion图像生成、腾讯文生图大模型
作为人类,我们渴望创造既具有自由意志又易于控制的媒体内容。由于生成技术的突出发展,我们现在可以轻松地利用2D扩散方法来合成由原始草图或指定的人体姿势控制的图像,甚至可以逐步编辑/重建局部区域并进行遮罩修补。然而,在3D建模任务中类似的工作流程仍然不可用,这是由于3D生成中控制性和效率的缺乏。在本文中,我们提出了一种新颖的可控交互式三维资产建模框架,名为Coin3D。原创 2024-05-16 20:35:21 · 426 阅读 · 2 评论 -
总结目前开源的视频生成/视频编辑大模型
随着Sora的爆火,视频生成和视频编辑受到了越来越多的关注。这篇博客总结一下目前开源的视频生成和视频编辑的大模型,并分析他们各自的优缺点,以及在自己进行科研任务或者工作中应该如何选用对应的开源模型,希望能给从事这一领域研究和使用的小伙伴们帮助。原创 2024-05-16 11:57:04 · 1003 阅读 · 2 评论