AIGC
文章平均质量分 90
AI生成未来
这个作者很懒,什么都没留下…
展开
-
2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。原创 2024-10-17 22:13:24 · 1024 阅读 · 0 评论 -
视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。原创 2024-10-10 08:52:18 · 849 阅读 · 0 评论 -
小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。原创 2024-09-25 07:32:38 · 1352 阅读 · 0 评论 -
腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。原创 2024-09-20 09:16:37 · 735 阅读 · 0 评论 -
时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。原创 2024-09-12 12:31:42 · 774 阅读 · 0 评论 -
生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。原创 2024-09-11 22:56:43 · 859 阅读 · 0 评论 -
高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。原创 2024-09-10 09:09:59 · 1365 阅读 · 0 评论 -
兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。原创 2024-09-10 08:26:45 · 976 阅读 · 0 评论 -
长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。原创 2024-09-09 23:50:07 · 1030 阅读 · 0 评论 -
单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。原创 2024-09-08 08:36:24 · 1195 阅读 · 0 评论 -
ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。原创 2024-09-07 21:29:52 · 1412 阅读 · 0 评论 -
风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。原创 2024-09-07 21:15:59 · 858 阅读 · 0 评论 -
最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。原创 2024-08-29 09:17:21 · 899 阅读 · 0 评论 -
超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。原创 2024-08-29 08:44:03 · 613 阅读 · 0 评论 -
统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;原创 2024-08-28 09:07:14 · 688 阅读 · 0 评论 -
像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。原创 2024-08-28 08:55:29 · 823 阅读 · 0 评论 -
史上最强文生图模型?谷歌Imagen3内部详细评估资料解读
文章链接:https://arxiv.org/pdf/2408.07009Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。原创 2024-08-18 22:25:29 · 1393 阅读 · 0 评论 -
图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。原创 2024-08-12 20:15:52 · 1164 阅读 · 0 评论 -
视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接:https://arxiv.org/pdf/2408.04567 项目地址:https://xrvisionlabs.github.io/Sketch2Scene/亮点直击可控的、基于草图指导的2D isometric图像生成流程。一个基底图修补模型,通过在新数据集上进行逐步展开的去噪扩散训练。基于学习的组合式3D场景理解模块。一个程序化生成流程,用于使用上述场景理解模块获得的场景参数渲染互动3D场景。3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强原创 2024-08-12 20:12:07 · 1075 阅读 · 0 评论 -
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
论文链接:https://arxiv.org/pdf/2408.02629项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/git链接:https://github.com/SAIS-FUXI/VidGen引入了一个专门用于训练文本到视频模型的高质量视频数据集。提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。原创 2024-08-09 08:52:20 · 942 阅读 · 0 评论 -
IPAdapter+再进化,可同时学习多个任务!Unity开源新思路:图像条件结合指令提示
文章链接:https://arxiv.org/pdf/2408.03209git链接:https://unity-research.github.io/IP-Adapter-Instruct.github.io/demo链接:https://huggingface.co/spaces/unity/IP-Adapter-Instruct提出IPAdapter-Instruct模型:结合自然图像条件与文本指令,灵活切换多种解释方式(如风格迁移、物体提取),简化任务处理。原创 2024-08-09 08:16:20 · 537 阅读 · 0 评论 -
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
假设目标分布是,将信号分割成多个子任务: ... 对于第t个条件概率拟合任务,采用网络θ来拟合它。对于任意两个任务t和k以及两个状态样本s和,如果将这种信号分解称为等变。可以观察到,语言分解是独立于位置的。对于任何token 或短语,它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致,因此表明语言分解表现出等变性。因此,采用单一模型来近似这些不同但相关的任务通常不会导致冲突,实际上,这对数据的整体建模非常有利。原创 2024-08-07 21:55:36 · 1087 阅读 · 0 评论 -
视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
文章链接:https://arxiv.org/pdf/2408.02657git链接:https://github.com/Alpha-VLLM/Lumina-mGPT通过多模态生成预训练的自回归Transformer,而不是从头训练,可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。基于mGPTs,引入了两种新的微调策略,FP-SFT和Omni-SFT,以在从弱到强的范式中充分释放它们的潜力,仅使用1000万高质量的文本-图像数据。原创 2024-08-07 21:35:30 · 727 阅读 · 0 评论 -
ICML 2024 | 矛与盾的较量!北大提出提示无关数据防御保护算法PID
在文本编码器也进行微调的情况下,PID引发严重的噪声、低质量图像,这些图像与训练数据几乎没有语义相关性,表现为降低的FDS(0.303和0.288)、显著降低的IQS(-8.979和-14.764)、高的BRISQUE(28.927和50.112)。的情况,显示的图像来自候选模型中视觉效果最佳的模型。本文使用↑(数值增加)和↓(数值减少)表示更好的保护效果的方向,例如,较大的FID表示生成图像与训练图像的分布之间存在更大的距离,表明生成的图像未能很好地捕捉训练数据,从而保护了训练数据的隐私。原创 2024-08-05 07:48:33 · 941 阅读 · 0 评论 -
超越DiffEdit、SDEdit等6大编辑模型!字节等提出人像服饰、卡通表情编辑新SOTA!
文章链接:https://arxiv.org/pdf/2407.20455一种数据生成技术,提供了具有更好身份和布局对齐的配对数据;一种多条件扩散模型,能够生成保留特征的结果,并在推理中提供准确的编辑mask指导;实现了最先进的人像编辑效果。现有的技术在进行人像编辑时面临挑战,难以保留主体特征(如身份)。本文提出了一种基于训练的方法,通过自动生成的配对数据来学习所需的编辑,同时确保保留未更改的主体特征。具体来说,本文设计了一个数据生成过程,以低成本创建合理的编辑训练对。原创 2024-08-05 07:39:38 · 1148 阅读 · 0 评论 -
颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
文章链接:https://arxiv.org/pdf/2407.16224git链接:https://humanaigc.github.io/outfit-anyone/顶尖逼真度:OutfitAnyone 方法为虚拟试穿设立了新的行业标准,提供行业领先的高质量结果。高鲁棒性:OutfitAnyone 可以支持任何人、任何服装、任何体型和任何场景的虚拟试穿。灵活控制:支持各种姿势和体型引导方法,包括 (openpose,SMP,densepose)。原创 2024-08-02 09:07:52 · 1121 阅读 · 0 评论 -
寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
论文链接:https://arxiv.org/pdf/2407.21705项目链接:https://ali-videoai.github.io/tora_video/亮点直击本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。原创 2024-08-02 09:03:06 · 830 阅读 · 0 评论 -
ECCV`24 | 比DragDiffusion快100倍!RegionDrag:快·准·好的图像编辑方法!港大&牛津
文章链接:https://arxiv.org/pdf/2407.18247github链接:https://github.com/LuJingyi-John/RegionDrag引入了一种基于区域的图像编辑方法,以克服基于点拖拽方法的局限性,利用更丰富的输入上下文来更好地对齐编辑结果与用户的意图。通过采用无梯度的复制粘贴操作,基于区域的图像编辑比现有方法快得多(见上图1),在一次迭代中完成拖拽。原创 2024-08-01 08:50:52 · 1053 阅读 · 0 评论 -
ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜!ReCorD:交互场景生成最新SOTA!
文章链接:https://arxiv.org/pdf/2407.17911git链接:https://alberthkyhky.github.io/ReCorD/引入了一种新颖的推理框架,将潜在扩散模型(LDM)与视觉语言模型(VLM)相结合,以克服生成逼真的人与物体互动(HOI)时面临的挑战,缓解了以往方法中的问题,例如大语言模型(LLM)对简单文本提示的过度分析以及LDM中的训练数据偏差。原创 2024-08-01 08:42:43 · 699 阅读 · 0 评论 -
具身智能又进一步!卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取
尽管Omnigrasp展示了控制模拟人形机器人抓取各种物体并在保持物体的同时跟随全方向轨迹的可行性,但仍然存在许多限制。例如,尽管输入和奖励中提供了6自由度(6DoF)输入,系统在旋转误差方面仍需进一步改进。Omnigrasp尚未支持精确的手内操作。轨迹跟随的成功率可以提高,因为物体可能会掉落或无法被拾起。另一个改进领域是实现对物体的特定类型抓取,这可能需要额外的输入,例如所需的接触点和抓取方式。即使在模拟中,实现人类水平的灵巧度仍然具有挑战性。有关失败案例的可视化,请参见补充网站。原创 2024-07-31 09:06:51 · 989 阅读 · 0 评论 -
连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!
文章链接:https://arxiv.org/pdf/2407.08683github链接:https://github.com/TencentARC/SEED-StorySEED-Story,一种利用多模态大语言模型(MLLM)生成具有丰富叙述性文本和上下文相关图像的多模态故事的新方法。提出了多模态注意力汇聚机制,以高效生成长度大于训练时使用的序列长度的长故事。引入了StoryStream,这是一个专门为训练和基准测试多模态故事生成而设计的大规模数据集。原创 2024-07-31 08:42:23 · 928 阅读 · 0 评论 -
CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D
通过渲染合成逼真的新视角图像,神经辐射场(NeRF)及其变体已经成为3D甚至4D动态场景的主要神经表示方法。除了仅仅表示现有场景之外,越来越多的人对通过场景编辑从原始场景创建新的、多样化的场景产生了兴趣。对于用户来说,最方便和直接的方式来传达场景编辑操作是通过自然语言——这一任务被称为指令引导的编辑。在2D图像任务中,已经通过2D扩散模型,即 Instruct-Pix2Pix (IP2P)取得了成功。然而,将这一能力扩展到以NeRF表示的3D或4D场景却面临显著挑战。原创 2024-07-26 21:47:10 · 848 阅读 · 0 评论 -
超燃!纯AI生成《泰坦尼克号》大片!浙大&阿里发布MovieDreamer:超长电影生成“梦工厂“
论文链接:https://arxiv.org/pdf/2407.16655项目主页:https://aim-uofa.github.io/MovieDreamer/github链接:https://github.com/aim-uofa/MovieDreamer,一个新颖的分层框架,将自回归模型与扩散渲染结合起来,平衡长时间叙事连贯性与短时间视觉保真度。该方法大幅延长了生成视频内容的时长,达到个关键帧。使用多模态自回归模型生成视觉token序列。自回归模型支持和。原创 2024-07-26 21:37:53 · 592 阅读 · 0 评论 -
超越所有NeRF方法!快速和高质量的3D编辑和身份保持新策略:DreamCatalyst
论文链接:https://arxiv.org/pdf/2407.11394github链接:https://dream-catalyst.github.io/本文通过将DDS解释为SDEdit过程,提出了一种3D编辑的一般公式,并提出了一种用于快速编辑和质量改进的专门公式。在一般的3D编辑任务中采用了递减时间步采样,这是一种在3D生成任务中常用的加速训练速度的采样算法,解决了以往工作中面临的挑战。首次引入FreeU用于3D编辑,以增强可编辑性,克服重新加权编辑目标公式中固有的权衡。原创 2024-07-26 00:12:14 · 683 阅读 · 0 评论 -
ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
本文提出的框架的整体流程如下图2所示。给定一个未配对的低光图像 和正常光图像 ,首先使用一个编码器 ,它由 个级联的残差块组成,每个块使用最大池化层将输入按比例降采样 倍,将输入图像转换为潜空间表示,表示为 和。然后,设计了一个内容传输分解网络(CTDN),将这些特征分解为富含内容的反射率图 和 ,以及无内容的照明图 和。随后, 和 作为扩散模型的输入,结合低光特征的指导,生成恢复的特征。最后,恢复的特征将送入解码器 进行重建,生成最终的恢复图像。原创 2024-07-26 00:00:35 · 1712 阅读 · 4 评论 -
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!
论文链接:https://arxiv.org/pdf/2311.16445代码链接:https://github.com/YichaoCai1/CLAP亮点直击:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模型的图像编码器提供的学习特征中提取潜在内容特征。原创 2024-07-24 20:29:57 · 1986 阅读 · 0 评论 -
我的发型我做主!上交联合Tiamat发布首个基于扩散的商业级发型移植框架:Stable-Hair!
本文的设计将发型移植过程分为两个阶段。首先,使用Bald Converter将用户输入的源图像转换为光头agent图像。其次,本文的模型将参考发型移植到光头agent图像上。这确保了发型移植的最佳稳定性,并保持源图像内容的一致性。如下图3所示,本文的Stable-Hair框架包含三个主要组件:Hair Extractor、Latent IdentityNet和新集成的Hair Cross-Attention Layers。原创 2024-07-24 20:15:43 · 1029 阅读 · 0 评论 -
DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?
Commonsense-T2I 包括150个手动策划的示例,每个示例都有一对对抗性提示:和,它们对应的期望输出描述:和,每个输出发生的可能性得分,以及常识类别。一个数据样本只有在满足以下Commonsense-T2I标准时才符合要求:和具有相同的主语,但动作词不同。和完全对比,不能在同一图像中共存。在常识下,会导致,会导致在日常生活中成立。原创 2024-07-22 14:16:10 · 1012 阅读 · 0 评论 -
YYDS!数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法:ClotheDreamer
文章链接:https://arxiv.org/pdf/2406.16815项目地址:https://ggxxii.github.io/clothedreamer高保真度的基于文本的三维服装合成对于数字化人物创建是可取的,但也具有挑战性。最近基于扩散的方法,通过评分蒸馏抽样(SDS)实现了新的可能性,但要么与人体紧密耦合,要么难以重复使用。本文引入了ClotheDreamer,这是一种基于三维高斯的方法,用于从文本提示生成可穿戴的、适合生产的三维服装资产。原创 2024-07-22 14:11:59 · 1164 阅读 · 0 评论 -
Still-Moving效果惊艳!无需定制视频数据,DeepMind让文生定制视频变得简单!
文章链接: https://arxiv.org/pdf/2407.08674github链接: https://still-moving.github.io/自定义文本生成图像(T2I)模型最近取得了巨大进展,尤其是在个性化、风格化和条件生成等领域。然而,将这些进展扩展到视频生成仍处于初期阶段,主要原因是缺乏定制视频数据。本文介绍了Still-Moving,是一种无需定制视频数据即可自定义文本生成视频(T2V)模型的新颖通用框架。原创 2024-07-15 22:29:46 · 956 阅读 · 0 评论
分享