AIGC
文章平均质量分 89
AI生成未来
这个作者很懒,什么都没留下…
展开
-
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448git链接: https://zju3dv.github.io/4k4d/本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面表现出色。然而,在渲染高分辨率图像时,它们的速度仍然有限。为解决这个问题,本文提出了4K4D,一种支持硬件光栅化的4D点云表示,能够实现前所未有的渲染速度。本文的表示基于4D特征网格构建,因此点云被自然地正则化并可以进行稳健优化。此外,设计了一种新原创 2024-07-12 09:11:27 · 600 阅读 · 0 评论 -
自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
文章链接:https://arxiv.org/pdf/2407.07614github链接:https://github.com/fusiming3/MARSMARS,一个从自回归预训练LLM中改编而来的创新框架,专用于文本到图像(T2I)生成任务。为了确保保留NLP能力,同时为模型配备先进的视觉生成和理解能力,设计了一个名为SemVIE的模块,该模块在预训练LLM的注意力块中添加了并行的视觉专家。MARS放大了自回归方法在T2I生成和联合图像-文本合成中的灵活性,并具有扩展到任何任务的潜力。原创 2024-07-12 09:02:06 · 736 阅读 · 0 评论 -
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2
整个框架分为四部分,如下图3所示。第一个部分是融合文本编码器(Fusion Text Encoder, FTE)与字形embedding,其工作方式相对传统。其主要目标是从SD的文本编码器的角度整合两种模态的特征,从而确保生成图像中两种模态的紧密结合。本文的框架中的第二个也是更为关键的部分是引入三重交叉注意力(Triples of Cross-Attention, TCA)。这个阶段,在SD解码器部分引入了两个不同的交叉注意力层。第一个新的交叉注意力层促进了字形特征与图像中的隐藏变量之间的交互。原创 2024-07-11 09:19:57 · 337 阅读 · 0 评论 -
3D版“裁缝“开源来袭!Tailor3D:自定义3D编辑和资产生成(港大&上海AI-Lab&港中文)
文章链接:https://arxiv.org/pdf/2407.06191github链接:https://tailor3d-2024.github.io/提出了,一种快速的3D编辑pipeline。通过结合2D图像编辑和快速3D重建技术,它显著提高了3D对象编辑的效率。结合了LoRA Triplane Transformer,有效处理了前后视图之间的不一致性,提升了整体重建质量。原创 2024-07-11 09:11:54 · 628 阅读 · 0 评论 -
文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务
文章链接:https://arxiv.org/pdf/2407.03006github地址:https://github.com/XiangGao1102/FCDiffusion最近,大规模的文本到图像(T2I)扩散模型在图像到图像(I2I)转换中展现出强大的能力,允许通过用户提供的文本提示进行开放域的图像转换。本文提出了频率控制的扩散模型(FCDiffusion),一种基于扩散的端到端框架,从频域的角度提供了文本引导的I2I的创新解决方案。原创 2024-07-10 09:06:46 · 710 阅读 · 0 评论 -
绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]
文章链接:https://arxiv.org/pdf/2407.06187github链接:https://research.nvidia.com/labs/dir/jedi本文提出了一种无需微调的文本生成图像方法,采用了新颖的联合图像扩散模型。提出了一种简单且可扩展的数据合成流程,用于生成共享同一主题的多图像个性化数据集。设计了新颖的架构和采样技术,如耦合自注意力和图像引导,以实现高保真度的个性化生成。个性化文本生成图像模型使用户能够在不同场景中创建展示其个人物品的图像,并在各个领域找到应用。原创 2024-07-10 08:59:04 · 1100 阅读 · 0 评论 -
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D
文章链接:https://arxiv.org/pdf/2405.14832 github链接:https://nju-3dv.github.io/projects/Direct3D/从文本和图像生成高质量的3D资产一直是一项挑战,主要是由于缺乏能够捕捉复杂几何分布的可扩展3D表示。在这项工作中,介绍了Direct3D,这是一种可扩展到in-the-wild输入图像的原生3D生成模型,不需要多视角扩散模型或SDS优化。方法包括两个主要组件:Direct 3D Variational Auto-Enco原创 2024-07-02 21:21:57 · 668 阅读 · 0 评论 -
超越所有SOTA达11%!媲美全监督方法 | UC伯克利开源UnSAM
在七个流行数据集上评估结果显示,UnSAM在语义平均召回率(AR)方面与有监督的SAM模型取得了竞争力的结果,并且在无监督分割领域超过了先前的最新技术,提升了11%。通过将无监督伪masks集成到SA-1B的真实masks中,并仅使用SA-1B的1%进行训练,轻度半监督的UnSAM经常能够分割出有监督SAM忽视的实体,其在SA-1B数据集上的AR提升超过了6.7%,AP提升了3.9%。此外,无监督UnSAM模型取得了令人印象深刻的结果,与领先的监督SAM的性能相媲美,并在某些半监督设置下超越它。原创 2024-07-02 21:12:26 · 918 阅读 · 0 评论 -
你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA
此外,本文引入了一种策略来组合已学习的EMMA模块,以同时生成基于多模态条件的图像,消除了需要对混合多模态提示进行额外训练的需求。大量实验表明,EMMA在保持生成图像的高保真度和细节方面效果显著,展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。最后一行展示了复合条件图像生成,可以生成既遵循指令又保留一张图像中的面部特征和另一张图像中的肖像元素的图像。多模态提示的创新集成机制:本文引入了EMMA,这是一种开创性的方式,将多模态提示的特征融合到图像生成过程中,同时不影响文本控制。原创 2024-06-28 00:18:06 · 477 阅读 · 0 评论 -
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
文章地址:https://arxiv.org/pdf/2406.11831仅基于解码器的 Transformer 的大语言模型(LLMs)与 CLIP 和 T5 系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象:直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问题背后的两个主要障碍:一个是大语言模型中下一token预测训练与扩散模型中对有区别性的提示特征的要求之间的不一致;原创 2024-06-28 00:18:37 · 904 阅读 · 0 评论 -
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit:任意场景、任意组合!
值得注意的是,尽管训练时一个服装呈现为平铺图像,另一个服装为从人物图像裁剪的扭曲布料,但在推理时,AnyFit在面对两种都作为平铺图像呈现的服装时仍然表现出色。为验证本文提出的Hydra Blocks的有效性,直接使用一个条件化的单一HydraNet作为基线“w/o Hydra Block”,实际上退化为ReferenceNet,同时编码顶部和底部服装条件,然后将它们连接到MainNet中。:为了保留服装的细节,并支持单件和多件服装的VTON,采用了一个镜像MainNet的HydraNet来编码服装信息。原创 2024-06-21 08:54:57 · 728 阅读 · 0 评论 -
单图创造虚拟世界只需10秒!斯坦福&MIT联合发布WonderWorld:高质量交互生成
所有这些都促使了交互式3D场景生成的问题,在这种情况下,用户可以低延迟地控制场景外推的内容(例如,通过文本提示),并且可以控制场景外推的位置(例如,通过相机控制)。由于本文的重点是使3D场景生成具有互动性,本文报告了从开始生成到可以看到结果的场景生成时间成本。一个基本的挑战是在推广过程中的几何扭曲,即新生成的场景内容可能与现有场景内容存在显著的几何差距,因此在从除了外部观点以外的视角看时会显得不连贯。本文的方法代表了交互式三维场景生成的重大进展,为用户驱动的内容创建和虚拟环境中的探索开辟了新的可能性。原创 2024-06-21 08:48:45 · 960 阅读 · 0 评论 -
阿里巴巴重磅开源EasyAnimate!基于DiT的长视频制作生态系统
人工智能在文本、图像和声音的创意内容生成方面已经决定性地扩展了其应用范围。在视觉领域,扩散模型被广泛用于图像生成和修改。开源项目如Stable Diffusion在文本转图像方面取得了显著进展。然而,在视频生成方面,当前模型仍面临一些挑战,如质量欠佳、视频长度有限以及运动不自然,这表明该技术还有很大的进步空间。一些开创性的研究在利用Stable Diffusion方法进行视频合成方面取得了进展,重点是用于去噪过程的UNet架构。最近,Sora 展现了非凡的视频生成能力,能够生成长达一分钟的高保真视频。原创 2024-06-18 08:23:12 · 724 阅读 · 0 评论 -
效果超越ControlNet+IP-Adapter和FreeControl!Ctrl-X:可控文生图新框架(加州大学&英伟达)
使用模板和手动注释来制作结构、外观和输出文本提示。Ctrl-X利用了预训练的T2I扩散模型的特征对应关系,支持任意的结构图像条件,适用于多种模型架构,并在与基于训练和指导的方法相比取得了竞争性的结构保留和更优异的外观迁移,同时享受了无需指导方法的低开销优势。如下图4和图5所示,Ctrl-X从各种结构图像中忠实地保留了结构,包括自然图像和ControlNet支持的条件(如HED、分割),以及野外条件(如线框、3D网格),这在先前的基于训练的方法中是不可能的,同时灵活地从外观图像中转移外观,具有语义对应关系。原创 2024-06-16 20:59:25 · 923 阅读 · 0 评论 -
揭秘神秘的种子:Adobe联合宾夕法尼亚大学发布文本到图像扩散模型大规模种子分析
文章链接:https://arxiv.org/pdf/2405.14828 最近对文本到图像(T2I)扩散模型的进展促进了创造性和逼真的图像合成。通过变化随机种子,可以为固定的文本提示生成各种图像。在技术上,种子控制着初始噪声,并且在多步扩散推理中,在反向扩散过程的中间时间步骤中用于重新参数化的噪声。然而,随机种子对生成的图像的具体影响仍然相对未知。在这项工作中,进行了大规模的科学研究,探讨了扩散推理过程中随机种子的影响。值得注意的是,研究者发现最佳的“黄金”种子的FID达到了令人印象深刻的21.60原创 2024-06-16 20:49:22 · 852 阅读 · 0 评论 -
3D分割新范式!浙大开源Reasoning3D:通过大视觉语言模型搞定3D部件分割
本文开发了Reasoning3D,一个简单而有效的基线方法,可以理解并执行复杂的命令,以对3D网格的特定部分进行分割,具有上下文理解和推理输出,用于交互式分割。随机收集了来自3D建模网站SketchFab的3D模型,并使用这些实际中的3D模型进行评估,并让志愿者给出“隐含”的分割命令。图6和图1展示了一些示例。在这里,受解决了3D生成中类似挑战的研究[16,17,52,54,60,72]的启发——在2D中使用网络模型,然后将一些信息提升到3D,本文利用现成的2D模型以zero-manner执行任务的方法。原创 2024-06-04 08:22:51 · 831 阅读 · 0 评论 -
10倍速度突破质量瓶颈,效果超越Gen-2和Pika!T2V-Turbo:新一代视频生成模型
值得注意的是,本文的两个T2V-Turbo的4步生成都优于VBench上的SOTA方法,甚至超过了它们的教师T2V模型和专有系统,包括Gen-2和Pika。人类评估进一步证实了这些结果,显示出本文的T2V-Turbo的4步生成受到人类的青睐,而不是它们的教师的50步DDIM样本,这代表了超过十倍的推理加速和质量改进。通过将推理步骤增加到8步,本文可以进一步改善从本文的T2V-Turbo生成的视频的视觉质量和文本-视频对齐,事实上,本文的8步生成在所有3个评估指标中都更受人类喜爱,相比本文的4步生成。原创 2024-06-04 08:18:12 · 982 阅读 · 1 评论 -
让如果变成现实!北大&Tiamat联合发布图像编辑新SOTA:EditWorld!
论文链接:https://arxiv.org/pdf/2405.14785 项目链接:https://github.com/YangLing0818/EditWorld 扩散模型显著提升了图像编辑的性能。现有的方法通过各种方式实现高质量的图像编辑,包括但不限于文本控制、拖拽操作和mask修复。其中,基于指令的编辑因其在不同场景中方便有效地遵循人类指令而脱颖而出。然而,这些方法仍主要集中在添加、替换或删除等简单的编辑操作上,未能理解传达物理世界中现实动态特性的世界动态方面。因此,本研究提出了一个新的编辑原创 2024-05-31 08:55:30 · 845 阅读 · 0 评论 -
编辑任何场景! 3DitScene:通过语言引导的解耦 Gaussian Splatting开源来袭!
场景图像编辑在娱乐、专业摄影和广告设计等多个领域具有重要意义。内容编辑能够为观众创造沉浸式和引人入胜的体验,有效传达艺术愿景,并实现预期的美学效果。随着深度生成建模的快速发展,许多尝试已被用于有效编辑图像。然而,这些方法遇到了限制,阻碍了它们的潜力。以往的方法主要集中在2D图像空间的场景编辑。它们通常依赖于生成先验,如生成对抗网络(GANs)和扩散模型(DM),并采用修改交叉注意力机制和优化网络参数等技术来编辑场景图像中的外观和对象身份。原创 2024-05-30 08:38:13 · 785 阅读 · 0 评论 -
填补领域空白!TerDiT:首次探索大规模DiT模型量化问题(MMLab出品)
论文链接:https://arxiv.org/pdf/2405.14854 项目链接:https://github.com/Lucky-Lance/TerDiT 最近在大规模预训练的文本到图像扩散模型方面的发展显著提高了高保真图像的生成能力,特别是基于transformer架构的扩散模型(DiTs)的出现。在这些扩散模型中,扩散transformer展示了卓越的图像生成能力,降低了FID分数并提高了可扩展性。然而,由于其庞大的参数数量,部署大规模的DiT模型可能会非常昂贵。尽管现有研究已经探索了扩散原创 2024-05-29 08:02:00 · 924 阅读 · 0 评论 -
谷歌重磅发布CAT3D:一分钟搞定任意数量视图到3D场景重建
对3D内容的需求比以往任何时候都高,因为它对于实现游戏、视觉效果和可穿戴混合现实设备的实时交互至关重要。尽管需求很高,高质量的3D内容仍然相对稀缺。与可以轻松用消费级摄影设备捕捉的2D图像和视频不同,创建3D内容需要复杂的专业工具以及大量的时间和精力投入。幸运的是,最近在摄影测量技术方面的进展大大提高了从2D图像创建3D资产的可行性。方法如NeRF、Instant-NGP和Gaussian Splatting允许任何人通过拍摄真实场景的照片并优化该场景的底层3D几何和外观表示来创建3D内容。原创 2024-05-22 08:09:58 · 626 阅读 · 0 评论 -
苹果超强视觉预训练模型助力下游任务拿SOTA!(分类、检测、分割、深度估计)
在计算机视觉领域,先在大规模语料库上进行预训练然后在目标任务上进行微调是一个常见的范式。在过去十年里,一种常见的预训练策略是在 ImageNet 上进行有监督的预训练。最近,诸如对比语言-图像预训练(CLIP)、BEiT和 DINO等在大规模数据集上训练的模型显示出能够学习到通用且高度可迁移的视觉表示。这些预训练模型随后被用作初始化,并在各种下游任务(如目标检测、语义分割和深度估计)中进行微调。尽管存在多种预训练方法,但没有一种方法能够对所有下游任务表现最佳。原创 2024-05-21 08:42:05 · 662 阅读 · 0 评论 -
如何“正确“使用Stable Diffusion?文本到图像扩散模型中记忆化实用分析(浙大)
扩散概率模型在图像生成、视频、3D 点云等方面展现了令人印象深刻的能力。这些技术为商业系统或社区奠定了基础,如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen,吸引了数百万活跃用户。扩散模型的普及可以归因于分层去噪过程,该过程在数十亿数据上训练时提供了高稳定性,并且具备了对多模态条件生成的可扩展性。用于训练最先进的文本到图像生成模型的大规模数据集,例如开源图像描述数据集 LAION-5B,被广泛认为包含可能引起版权和隐私担忧的内容。原创 2024-05-20 08:45:20 · 1028 阅读 · 0 评论 -
迈向统一扩散框架!Adobe提出RGB↔X:双重利好下游编辑任务 | SIGGRAPH‘24
从图像中估计几何、着色和光照信息是计算机视觉社区长期以来一直在研究的问题,自从经典的固有图像分解工作开始。由于其受限性质,包括照明和材料之间的歧义性,这个问题本质上是困难的。最近的工作集中在与逐像素反向渲染相关的问题上。这产生了物理材料和光照估计,具体包括漫反射反照率、镜面粗糙度和金属度,以及各种空间变化的光照表示。将所有这些信息缓冲区称为固有通道,并用符号X表示,将估计它们的问题称为RGB→X。原创 2024-05-17 08:45:49 · 841 阅读 · 0 评论 -
极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)
在追求通用人工智能(AGI)的过程中,通用世界模型的发展被视为一个基本途径。通用世界模型通过生成过程来理解世界。值得注意的是,Sora模型的引入引起了极大关注。其出色的模拟能力不仅表明了对物理定律的初步理解,还突显了世界模型中具有前景的进展。站在人工智能创新的前沿,深入探讨世界模型的领域至关重要,揭示它们的复杂性,评估它们当前的发展阶段,并思考它们未来可能的发展轨迹。世界模型通过预测未来来增进对世界的理解。原创 2024-05-17 08:44:05 · 725 阅读 · 0 评论 -
国内首个中文原生DiT架构SOTA大模型全面开源!———Hunyuan-DiT技术报告详解
基于扩散的文本生成图像模型,如DALL-E、Stable Diffusion和Pixart,已经展示了生成前所未有质量图像的能力。然而,它们缺乏直接理解中文提示的能力,限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力,提出了AltDiffusion、PAI-Diffusion和Taiyi,但它们的生成质量仍需改进。在本报告中,介绍了构建Hunyuan-DiT的完整流程,该模型可以根据英文和中文提示生成不同分辨率的高质量详细图像。原创 2024-05-15 08:18:00 · 881 阅读 · 0 评论 -
SIGGRAPH`24 | 毫米级接近真实动作生成!LGTM:文本驱动!(深大&快手&字节)
在本文中解决了文本到动作的问题,即,给定一个角色动作的文本描述,本文旨在自动生成合理且逼真的3D人体动作。成功自动化此过程对于各种下游应用具有重要潜力,包括为增强和虚拟现实环境创建内容,推动机器人技术的进步,以及改进人机交互。作为自然语言处理、机器学习和计算机图形学交汇处的长期挑战,文本到动作生成近年来受到了广泛关注。扩散模型的出现,正如各种研究所强调的,推动了这一领域的显着进步。尽管取得了这些进展,从文本描述生成既在局部语义上准确又在全局上连贯的动作仍然是一个巨大的障碍。原创 2024-05-13 08:47:22 · 675 阅读 · 0 评论 -
一文详解多模态智能体(LMAs)最新进展(核心组件/分类/评估/应用)
智能体(agent)是一个能够感知其环境并根据这些感知做出决策以达到特定目标的系统。尽管在狭窄领域内表现出色,早期智能体往往缺乏适应性和泛化能力,与人类智能存在显著差异。最近大语言模型(LLMs)的进展开始弥合这一差距,LLMs增强了它们在命令解释、知识吸收和模拟人类推理和学习方面的能力。这些智能体使用LLMs作为它们的主要决策工具,并进一步增强了关键的类人特征,如记忆。这种增强使它们能够处理各种自然语言处理任务,并使用语言与环境进行交互。原创 2024-05-13 08:44:08 · 1345 阅读 · 0 评论 -
Meta最新成果:前所未有的加速Emu推理 | Imagine Flash:新型蒸馏框架发布
随着去噪扩散模型(DMs)的出现,生成建模已经发生了一场范式转变。这些模型在各个领域树立了新的基准,提供了前所未有的逼真性和多样性,同时确保了稳定的训练。然而,去噪过程的顺序性质带来了显著挑战。(i)每步神经网络评估的延迟,以及(ii)去噪步骤的总数。大量的研究工作致力于加速抽样过程。对于文本到图像的合成,提出的方法涵盖了广泛的技术,包括高阶求解器、用于曲率降低的修改扩散公式,以及引导、步骤和一致性蒸馏。这些方法取得了令人印象深刻的改进,在接近10步的区间内达到了非常高的质量。原创 2024-05-10 08:41:04 · 786 阅读 · 0 评论 -
生成一个好故事!StoryDiffusion:一致自注意力和语义运动预测器必不可少(南开&字节)
最近,扩散模型发展迅速,并展示了在内容生成方面的非凡潜力,如图像,3D目标和视频。通过广泛的预训练和先进的架构,扩散模型在生成高质量图像和视频方面表现优于先前基于生成对抗网络(GAN)的方法。然而,生成具有一致主题(例如,具有一致身份和服装的角色)的图像和视频来描述故事对现有模型仍然具有挑战性。常用的以图像为参考的IP-Adapter可以用于指导扩散过程以生成类似于它的图像。然而,由于强大的引导作用,对文本提示生成的内容的可控性降低了。原创 2024-05-06 20:52:15 · 1302 阅读 · 1 评论 -
一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)
Transformer,由Vaswani等人引入,以其强大的数据建模能力、可伸缩性以及出色的捕捉长距离依赖性的能力,彻底改变了机器学习。起源于自然语言处理(NLP)领域,取得了机器翻译和文本摘要等方面的成功,Transformer现在将其实用性扩展到计算机视觉任务,如图像分类和目标检测。最近,它们的能力已经在多模态情感分析领域得到了利用,其中它们整合和解释多样的数据流——文字、视觉和声音——以评估情感反应。原创 2024-04-23 09:09:53 · 1172 阅读 · 0 评论 -
为Stable Diffusion模型瘦身并达到SOTA!LAPTOP-Diff:剪枝蒸馏新高度(OPPO)
文章链接:https://arxiv.org/pdf/2404.11098在AIGC时代,对低成本甚至设备端应用扩散模型的需求日益增加。在压缩Stable Diffusion模型(SDM)方面,提出了几种方法,其中大多数利用手工设计的层移除方法来获得更小的U-Net,同时利用知识蒸馏来恢复网络性能。然而,这种手工设计的层移除方式效率低下,缺乏可扩展性和泛化性,并且在重新训练阶段使用的特征蒸馏面临着不平衡问题,即一些数值显著的特征损失项在整个重新训练过程中占主导地位。原创 2024-04-23 09:06:16 · 918 阅读 · 0 评论 -
图像生成/编辑应用落地必不可少!MuLAn:首个实例级RGBA分解数据集(华为诺亚)
大规模生成diffusion model 现在能够根据文本prompt词描述生成高质量的图像。这些模型通常在包含多种风格和内容的标注RGB图像的大型数据集上进行训练。虽然这些技术已经极大地推动了文本引导图像生成领域的发展,但图像外观和构成(例如局部图像属性、可计数性)的精确可控性仍然是一个挑战。Prompt指令经常缺乏精确性或被误解(例如计数错误、空间位置错误、概念混淆、未能添加或删除实例),因此需要复杂的prompt工程来获得期望的结果。原创 2024-04-15 08:58:17 · 708 阅读 · 0 评论 -
完美提升Stable Diffusion生成质量和效率!UniFL:统一反馈学习框架(字节&中山)
扩散模型的出现将文本到图像(T2I)领域推向了前所未有的进步领域,其突出贡献如DALLE-3、Imagen、Midjourney等。特别是,开源图像生成模型的引入,如Stable Diffusion,开启了一个变革性的文本到图像时代,产生了许多下游应用,如T2I个性化、可控生成和文本生成视频(T2V)。尽管迄今为止取得了显著进展,但当前基于Stable Diffusion的图像生成模型仍存在一定的局限性。低质量:生成的图像通常质量较差,缺乏真实性。原创 2024-04-15 08:51:41 · 1005 阅读 · 0 评论 -
CVPR`24 | FRESCO:高质量、连贯的Zero-shot视频转换新方案(北大&南洋理工)
在当今数字时代,短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展,视频处理仍然存在独特的挑战,特别是在确保自然运动和时间一致性方面。通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动,然而这既不经济也不方便普通用户。原创 2024-03-28 09:01:45 · 825 阅读 · 0 评论 -
腾讯放大招了!AniPortrait开源上线!音频驱动逼真人像动画合成!人人都是歌手!
从音频和静态图像中创建逼真而富有表现力的肖像动画具有各种应用,从虚拟现实和游戏到数字媒体都有涉及。然而,制作视觉上引人入胜且保持时间一致性的高质量动画是一个重大挑战。这种复杂性源于需要精细协调嘴唇运动面部表情和头部位置,以营造出视觉上引人入胜的效果。现有方法通常未能克服这一挑战,主要是因为它们依赖于用于视觉内容创建的容量有限的生成器,如GANs、NeRF或基于运动的解码器。这些网络展现出有限的泛化能力,并且在生成高质量内容方面经常缺乏稳定性。最近,扩散模型的出现促进了高质量图像的生成。原创 2024-03-28 08:59:25 · 1412 阅读 · 0 评论 -
只需一步!One-Step图像转换来了!亲测效果惊艳!(卡内基梅隆&Adobe)
条件扩散模型使用户能够基于空间条件和文本提示生成图像,从而实现了对场景布局、用户草图和人体姿势等进行精确控制的各种图像合成应用。尽管这些模型取得了巨大成功,但它们面临两个主要挑战。首先,扩散模型的迭代性质使推理速度变慢,限制了实时应用,例如交互式 Sketch2Photo。其次,模型训练通常需要筛选大规模的配对数据集,对许多应用造成了重大成本,而对其他应用来说则不可行。本项工作介绍了一种适用于配对和无配对设置的one-step图像到图像翻译方法。原创 2024-03-25 20:00:34 · 1109 阅读 · 0 评论 -
FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合
单视图三维重建旨在从单个RGB图像中恢复对象的三维几何和外观。这项任务具有极其重要的意义,因为它使机器能够理解和与真实的三维世界进行交互,从而实现虚拟现实(VR)、增强现实(AR)和机器人技术等各种应用。在三维重建中面临的主要挑战之一是确保具有高质量和高效率的表示。显式表示(例如点云、体素和网格)由于其直观且形变友好的特性而被广泛使用,但往往难以表示真实的外观。近年来,隐式表示(例如神经辐射场(NeRF))由于这些方法的连续性有助于优化而取得了巨大成功。然而,渲染所需的随机采样耗时且可能产生噪声。原创 2024-03-25 19:58:07 · 1396 阅读 · 0 评论 -
CVPR`24 | 无需微调,超越SPAE!V2L-Tokenizer:图像描述/重建/去噪多项SOTA!
在自然语言处理(NLP)领域,通过部署大语言模型(LLMs),如GPT、PaLM和LLaMA,已经取得了显著的进步。为了解决需要结合文本和视觉理解的复杂挑战,学者们正在扩展现成LLMs的能力。这种增强涉及整合额外的视觉处理组件,以促进对视觉内容的理解或从文本生成图像。随后,这些改进的模型会使用各种多模态数据集进行额外的再训练或微调,以使视觉潜在空间与语言潜在空间对齐。然而,这种精炼过程通常需要大量的训练资源。如上图1所示,我们的目标是为大语言模型赋予理解视觉信号的内在能力,重要的是,无需微调。原创 2024-03-20 09:20:53 · 939 阅读 · 0 评论 -
除了SD Web UI 或comfyUI,还有更简单的运行SDXL的方法吗?
想要从你的机器上生成令人惊叹的 AI 图像吗?你可能知道SD WebUI 或者 comfyUI,如果不想安装这些终端软件,又想快速体验,最快的方式是什么?本次以Stable Diffusion XL为例,它是当前最优秀的本地图像生成器之一,一起快速生成图片吧!:你需要一张良好的显卡。至少需要 4G 的 VRAM;如果有 8G 或更多则效果会更好。这里将在Linux系统上使用。如果你使用 WSL,那么在 Mac 或 Windows 上的操作步骤相同。原创 2024-03-18 08:46:42 · 781 阅读 · 0 评论