图像生成
文章平均质量分 90
AI生成未来
这个作者很懒,什么都没留下…
展开
-
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 638 阅读 · 0 评论 -
小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。原创 2024-09-25 07:32:38 · 1150 阅读 · 0 评论 -
2万字长文超全详解!深度学习时代阴影检测、去除与生成在图像与视频中的全面综述
本文探讨了阴影分析中的开放问题,重点关注图像和视频感知、编辑以及对AIGC和大型视觉/语言模型的影响。本文的见解建议了未来的研究方向,为阴影分析及其应用的进展提供了路线图。原创 2024-09-24 08:13:25 · 1251 阅读 · 0 评论 -
腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。原创 2024-09-20 09:16:37 · 652 阅读 · 0 评论 -
Amazing!精准可控新视角视频生成+场景级3D生成!北大&港中文&腾讯等开源ViewCrafter
Sora等在大规模真实场景视频数据集上训练得到视频扩散模型能够学到对3D物理世界的深入理解,从而使其从单张图像或文本提示中生成复合物理规律和现实世界规则的视频内容。然而,由于它们缺乏场景的底层3D信息,因此难以在视频生成过程中实现精确的相机视角控制。原创 2024-09-13 09:04:49 · 1019 阅读 · 0 评论 -
时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。原创 2024-09-12 12:31:42 · 653 阅读 · 0 评论 -
突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
现有手写文本生成方法通常需要超过十个样本作为风格参考。实际应用中,用户偏好只用一个样本的生成模型以提高便利性和效率。单样本生成方法面临捕捉细节和处理背景噪声的挑战,特别是在字符边缘的高频信息提取上困难重重。提出了“单样本扩散模仿器”(One-DM)来生成手写文本,并能模仿任何书法风格。开发了一种风格增强模块,利用样本中的高频信息(如字符倾斜和字母连接)来提升风格提取效果。将风格特征与文本内容融合,作为扩散模型生成手写文本的引导条件。风格增强模块提取并增强样本中的高频信息,以捕捉细腻的风格细节。原创 2024-09-11 22:38:54 · 960 阅读 · 0 评论 -
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。原创 2024-09-10 09:09:59 · 1153 阅读 · 0 评论 -
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。原创 2024-09-10 08:26:45 · 933 阅读 · 0 评论 -
3D人体重建新SOTA!清华&腾讯等重磅发布MagicMan:单一图像生成高质量人体新突破
MagicMan,一种通过利用图像扩散模型作为 2D 生成先验和 SMPL-X 模型作为 3D 身体先验的方法,从单张参考图像生成人体的新视角。基于此,作者提出的高效混合多视角注意力机制确保了生成更密集的多视角图像,同时保持高的 3D 一致性,这一效果通过几何感知双分支进一步得到增强。此外,作者的新型迭代优化过程通过逐次迭代优化初始估计的 SMPL-X 姿势,以提高生成新视角的一致性,并缓解由不准确 SMPL-X 估计引起的几何畸形问题。原创 2024-09-09 23:37:43 · 1282 阅读 · 0 评论 -
可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!
本解读已获得论文作者的原创解读授权文章链接:https://arxiv.org/pdf/2408.16768在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Pointcode链接:https://github.com/ZiyuGuo99/SAM2Point:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D-3D 投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。原创 2024-09-08 08:46:59 · 1038 阅读 · 0 评论 -
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。原创 2024-09-08 08:36:24 · 1127 阅读 · 0 评论 -
ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。原创 2024-09-07 21:29:52 · 1343 阅读 · 0 评论 -
风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。原创 2024-09-07 21:15:59 · 800 阅读 · 0 评论 -
统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;原创 2024-08-28 09:07:14 · 638 阅读 · 0 评论 -
像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。原创 2024-08-28 08:55:29 · 781 阅读 · 0 评论 -
ECCV`24|T2I与StlyeGAN2首次联手!PreciseControl:单肖像生成精细个性化图像!
论文链接:https://arxiv.org/pdf/2408.05083工程主页:https://rishubhpar.github.io/PreciseControl.home/git链接:https://github.com/rishubhpar/PreciseControl首次提出将大型文本到图像(T2I)模型与StyleGAN2结合的方法,通过将T2I模型条件化在丰富的潜在空间上实现。使用单张肖像图像进行有效个性化的方法,使得在空间中进行细粒度的属性编辑,并通过文本提示实现粗略编辑。原创 2024-08-25 08:47:55 · 509 阅读 · 0 评论 -
全面提升!上海交大等联合发布MegaFusion:无须微调的高效高分辨率图像生成方法
文章链接:https://arxiv.org/pdf/2408.11001项目链接:https://haoningwu3639.github.io/MegaFusion/提出了一种无需调优的方法——MegaFusion,通过截断与传递策略,以粗到细的方式高效生成百万像素的高质量、高分辨率图像;结合了膨胀卷积和噪声重新调度技术,进一步优化了预训练扩散模型对高分辨率的适应性;原创 2024-08-22 09:06:19 · 1086 阅读 · 0 评论