- 博客(204)
- 收藏
- 关注
原创 无需昂贵标注!大幅提升SDXL和SD3-Medium效果!文生图偏好优化新宠来了 | TUM&Snap
解决的问题传统的直接偏好优化(DPO)方法依赖大量人工标注的数据集来对文本生成图像(T2I)模型进行对齐,但这种方法成本高昂,且数据容易过时,难以适应T2I模型快速提升的需求。提出的方案本研究提出一种完全合成的数据集收集方法,用于DPO训练。通过预训练的奖励函数生成成对图像的偏好数据,替代人工标注,极大地提升数据集的收集效率。同时,引入RankDPO方法,通过排名反馈增强DPO训练,提升模型的偏好学习效果。应用的技术。
2024-11-01 08:22:47 544
原创 定制化视频生成新模范!零样本主体驱动,精确运动控制!复旦&阿里等发布DreamVideo-2
现有的视频定制生成方法需要在测试时进行复杂的微调,且难以平衡主体学习与运动控制,限制了其在实际应用中的效果。
2024-11-01 08:17:32 526
原创 Scaling laws在视觉自回归模型上失效了?谷歌联合MIT发布Fluid:文生图质量刷新纪录!
本文探讨了在视觉领域,特别是文本生成图像任务中,扩大自回归模型并不像在大语言模型中那样有益的现象。具体关注了以下两个关键问题:模型使用离散还是连续的token。模型在生成token时,使用随机顺序还是固定顺序(基于BERT或GPT的Transformer架构)。通过实验对比不同模型,研究模型在使用离散或连续token,以及在随机顺序或光栅顺序生成时的表现。基于实验结果,提出了一种新的模型——Fluid,该模型使用随机顺序的自回归生成方式,并基于连续token进行训练。使用BERT和GPT。
2024-10-25 08:48:03 732
原创 灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!
解决的问题离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出的方案提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。应用的技术。
2024-10-25 08:42:21 943
原创 2万字长文看透基于扩散模型的图像编辑理论和实践!(中科院&南科大&苹果&Adobe)
如何利用去噪扩散模型进行高质量的图像生成和编辑。系统地分类和评估扩散模型在图像编辑中的应用。
2024-10-24 21:36:56 673
原创 统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。
2024-10-24 21:21:15 864
原创 视频生成和具身智能强强联合!谷歌&卡内基梅隆&斯坦福发布Gen2Act:泛化超棒!
机器人操作策略在面对新任务时,往往难以处理未见过的物体类型和新动作。由于机器人数据采集成本高,如何实现操作策略的泛化是一个关键挑战。给定由图像指定的场景和用文本描述的任务目标,我们希望机器人操作系统执行一系列动作来完成任务。为在未知场景中实现这一目标,我们从网络视频数据中学习运动预测信息,形成视频预测模型,该模型能够零样本生成任务的人类视频。为了将生成的视频转化为机器人动作,我们训练了一个闭环策略,该策略基于视频和最后次机器人观测进行条件判断,通过行为克隆对一个小规模机器人交互数据集进行训练。
2024-10-22 08:26:06 721
原创 阿里商业级视频生成框架——轨迹控制版视频生成 Tora 重磅开源!
值得注意的是,它可以生成符合指定轨迹的高质量视频,最高可达204帧,分辨率为720p。从GitHub 上的 README 文件来看,由于阿里目前的商业使用计划,当前开放的是文生视频版本的Tora。未来,阿里团队计划推出 ModelScope 的试用 demo、训练代码以及完整版本的 Tora,以满足更多用户的需求,这无疑将推动文生视频技术的进一步发展。尤其值得注意的是,当文本提示中的对象与预设轨迹明显不太可能匹配时,Tora 动态地调整物体的局部运动,确保其整体运动仍然符合自然规律,并保持视觉的一致性。
2024-10-22 08:21:29 345
原创 苹果重磅开源俄罗斯套娃扩散模型!MDM:多任务高分辨率生成又快又好!
生成高质量图像和视频的扩散模型面临高维度学习的计算和优化挑战,尤其是在处理高分辨率图像时。
2024-10-21 21:29:59 309
原创 矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI
引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。
2024-10-20 22:31:25 1045
原创 “左脚踩右脚”提升文生图模型综合能力!清北牛津普林斯顿联合发布IterComp
现有的扩散模型(如RPG、Stable Diffusion 3 和 FLUX)在生成组合性图像时各有所长,有的擅长属性绑定,有的则在空间关系上表现更好。然而,这些模型无法全面解决组合性生成的多方面需求,缺乏一种能够综合各模型优势的方法。1. 如何提取不同模型在各自领域的优势,并引导模型进行有效学习?针对该问题,我们首先构建了模型库(model gallery),其包含多种在不同方面表现出色的模型,每个模型都具备特定的组合生成偏好(composition-aware model preference)。
2024-10-20 22:28:23 937
原创 前所未有的体验!普通移动设备就能渲染全息影像啦!上海科大和赜深科技提出V³
文章链接:https://arxiv.org/pdf/2409.13648 Github链接:https://authoritywang.github.io/v3/亮点直击提出,一种通过流式传输高质量Gaussian Splatting来支持在普通设备上渲染全息影像的新方法。展示了一种紧凑的动态高斯表示,将高斯属性嵌入到2D高斯视频中,以便于硬件视频编解码器的使用。提出了一种高效的训练策略,通过运动-外观解耦、残差熵损失和时间损失来保持时间连续性。提出了多平台全息影像播放器,支持实时播放和流媒
2024-10-17 22:30:45 803
原创 2024年了,视频生成模型离通用世界模拟器还有多大差距?SOTA模型全面评估
PhyGenBench 的目的是评估 T2V 模型是否理解物理常识,而 PhyGenBench 中的每个提示都展示了一个明确的物理现象及其背后的物理定律。讨论了一些常用手段是否可以解决PhyGenBench中所提出的问题,具体来说,讨论了Prompt Engineer(使用GPT rewrite prompt),Scaling Law,以及提高video general quality是否可以解决PhyGenBench中的问题(具体来说,提高VBench上的表现和PhyGenBench的关系)。
2024-10-17 22:13:24 1008
原创 个性化图像生成新王炸!无需微调,Meta重磅发布Imagine yourself:三大核心全面SOTA!
具体来说,提出了一种新颖的合成配对数据生成机制,新的完全并行架构结合了三个文本编码器和一个可训练的视觉编码器,以优化身份保留和文本对齐,以及一种新颖的由粗到细的多阶段微调方法,旨在逐步增强视觉吸引力,从而推动生成图像的视觉吸引力边界。在这种设置下,通过训练,网络学习如何在生成提示引导的图像背景时,将参考图像映射到群体照片中的对应主体。对于控制方法,本文注意到姿势图像的选择对最终生成图像的构成起着重要作用,即对于某些提示,精心选择的姿势图像可以使生成的图像更好或更差。消融结果突出显示了多阶段微调的影响。
2024-10-14 08:55:55 1030
原创 首篇!全面系统解读高效SAM变体:各种加速策略和核心技术展示
是图像分割领域中的一个强大基础模型,旨在通过基本的可提示分割任务,利用提示工程来统一各种分割任务。该项目的一个显著贡献是 SA-1B 数据集,该数据集包含来自 1100 万张经过许可和隐私保护的图像生成的超过 10 亿个masks。在如此丰富和高质量的数据上进行训练,SAM 展现出强大的鲁棒性和泛化能力。SAM 的巨大潜力迅速引起了研究人员对探索其在广泛现实应用中的能力以及改进其架构以实现更高效或更准确分割的兴趣。最近,被提出作为继任者,专注于高效的可提示视觉分割 (PVS),适用于图像和视频。
2024-10-14 08:49:38 1338
原创 自回归视觉生成里程碑!比ControlNet 和 T2I-Adapter 快五倍!北大&腾讯提出CAR:灵活、高效且即插即用的可控框架
当前的视觉生成模型主要有两种技术路径:扩散模型和自回归模型。扩散模型在生成控制上表现出色,但自回归模型虽然具备强大的生成能力和可扩展性,控制性和灵活性方面仍然未被充分探索。
2024-10-13 14:40:18 695
原创 长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。
2024-10-12 08:55:08 704
原创 3D生成基础模型来了!只需5秒,高质量3D资产规模化生成!南洋理工等重磅开源3DTopia-XL
预备知识。给定一个带有纹理的3D网格,将其3D形状表示为S∈R3S∈R3,其中x∈Sx \in Sx∈S是形状占据空间内的点,而 $x \in \partial S $ 是形状边界上的点,即形状的表面。我们将3D形状建模为SDF如下:此外,给定形状表面的邻域U∂Sδx∣dx∂SδU∂Sδx∣dx∂Sδ,目标网格的空间变化颜色函数和材质函数定义如下:其中CxR3→R3CxR3→R3和ρxR3→。
2024-10-11 08:42:01 688
原创 详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)
在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。
2024-10-11 08:27:28 960
原创 视频生成的黎明:100+页干货全面探讨SORA类模型(T2V&I2V&V2V全包括)腾讯&中科大
总之,本报告全面探讨了SORA类模型在高质量视频生成中的应用,涵盖了T2V、I2V和V2V任务。通过设计一系列详细的提示和案例研究,系统地评估了这些模型在各种场景中的进展、挑战和潜在应用。分析突显了视频生成领域所取得的显著进展,尤其是在视觉质量、运动自然性和动态性以及视觉-语言对齐方面。
2024-10-10 08:52:18 831
原创 ECCV`24 | 新加坡国立&华为提出Vista3D: 实现快速且多视角一致的3D生成
解决的问题解决单张图像生成3D对象时多视图不一致的问题。平衡3D生成中的一致性与多样性。提出的方案Vista3D框架采用两阶段方法:粗略阶段通过高斯投影生成初始几何,精细阶段优化符号距离函数(SDF)。使用角度组合方法进行扩散先验,通过约束梯度幅度实现多样性。应用的技术高斯投影和可微等值面方法。解耦纹理技术。使用两个独立隐函数捕捉物体的可见和隐藏方面。达到的效果在短短5分钟内实现快速且一致的3D生成。提升生成质量,维持3D物体一致性和多样性之间的平衡。
2024-10-10 08:43:24 1450
原创 从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述
文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时间信息的连续帧,而长视频则由多个事件组成,涉及事件之间和长期的时间信息。
2024-10-09 23:45:13 1389
原创 ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
2024-10-09 21:43:35 798
原创 视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。
2024-10-09 21:37:43 1298
原创 ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。
2024-09-28 10:46:29 697
原创 让具身智能更快更强!华东师大&上大提出TinyVLA:高效视觉-语言-动作模型,遥遥领先
解决的问题:现有的视觉-语言-动作(VLA)模型在推理速度慢和需要大量机器人数据进行预训练方面面临挑战,限制了实际应用。提出的方案:引入一种新型紧凑型视觉-语言-动作模型TinyVLA,提供更快的推理速度和更高的数据效率,消除预训练阶段的需求。应用的技术:TinyVLA框架包括两个关键组件:1) 使用高效的多模态模型初始化策略骨干;2) 在微调过程中集成扩散策略解码器,以实现精确的机器人动作。达到的效果。
2024-09-28 10:39:05 1222
原创 小红书开源StoryMaker:个性化图像生成模型,实现角色一致性与背景变化的完美结合
现有的无调优个性化图像生成方法在处理多个角色时,尽管能保持面部一致性,但在场景的整体一致性方面存在缺陷,这影响了叙事的连贯性。给定包含一或两个角色的参考图像,StoryMaker旨在生成一系列新图像,展示相同的角色,保持面部、服装、发型和身体的一致性。通过改变背景、角色的姿势和风格,根据文本提示可以创建叙事。首先使用面部编码器提取角色的面部信息(即身份),并通过角色图像编码器获取他们的服装、发型和身体的细节。
2024-09-25 07:32:38 1317
原创 Qwen2-VL全面解读!阿里开源多模态视觉语言模型,多项超越GPT4o与Claude 3.5-Sonnet
Qwen2-VL系列旨在重新定义传统的固定分辨率视觉处理方法,解决了在处理不同分辨率图像时的效率和准确性问题。
2024-09-24 09:02:50 2931
原创 2万字长文超全详解!深度学习时代阴影检测、去除与生成在图像与视频中的全面综述
本文探讨了阴影分析中的开放问题,重点关注图像和视频感知、编辑以及对AIGC和大型视觉/语言模型的影响。本文的见解建议了未来的研究方向,为阴影分析及其应用的进展提供了路线图。
2024-09-24 08:13:25 1441
原创 ACM MM24 | Hi3D: 3D生成领域再突破!新视角生成和高分辨率生成双SOTA(复旦&智象等)
Hi3D框架旨在解决从高分辨率图像生成3D模型时面临的挑战,特别是如何在多个视角之间保持几何一致性和高质量的纹理细节。传统方法往往在生成多视角图像时缺乏时间一致性,导致生成的3D内容在视觉上不连贯。
2024-09-22 16:59:11 1469
原创 腾讯&新加坡国立发布IFAdapter:即插即用,提升文生图模型实例特征和位置生成准确性
解决的问题传统的文本生成图像 (T2I) 扩散模型在生成单个实例时效果很好,但在多个实例的特征生成和准确定位上存在挑战。尽管布局生成图像 (L2I) 任务通过使用边界框提供空间控制来解决定位问题,但在实例特征的精确生成上仍然不足。提出的方案为了解决这一问题,提出了实例特征生成 (IFG)任务,旨在同时确保生成实例的准确定位和特征保真度。为此,引入了实例特征适配器 (IFAdapter),作为一种模块,能够在不同模型中灵活应用。
2024-09-20 09:16:37 710
原创 Amazing!精准可控新视角视频生成+场景级3D生成!北大&港中文&腾讯等开源ViewCrafter
Sora等在大规模真实场景视频数据集上训练得到视频扩散模型能够学到对3D物理世界的深入理解,从而使其从单张图像或文本提示中生成复合物理规律和现实世界规则的视频内容。然而,由于它们缺乏场景的底层3D信息,因此难以在视频生成过程中实现精确的相机视角控制。
2024-09-13 09:04:49 1103
原创 时尚穿搭想换就换,各种风格一键完美搭配!亲测在线虚拟试衣换装平台效果超赞!
DressPlay是一款专为追求时尚或有特定穿搭需求的用户量身定制的换装应用。通过先进的 AI 技术,DressPlay 为用户提供了一个虚拟试衣间,使用户能够在几秒钟内试穿多种服装,并根据个人喜好进行个性化调整。无论是选择上衣、裤装还是整套装扮,DressPlay 都能一键为用户实现完美搭配。此外,DressPlay拥有简洁且直观的用户界面,用户可以轻松地浏览、选择和切换不同的服装组合。系统还提供了多种模板和风格选项,满足多样化的时尚需求。
2024-09-12 12:31:42 739
原创 生动灵活,MegActor重磅升级!旷视科技发布MegActor-Σ:首个基于DiT的人像动画方法!
文章链接:https://arxiv.org/pdf/2408.14975项目链接:https://megactor-ops.github.io/一种新颖的混合模态扩散Transformer(DiT),能够有效整合音频和视觉控制信号。相较于之前基于UNet的方法,这是首个基于DiT框架的人像动画方法。一种新颖的“模态解耦控制”训练策略,能够解决视觉泄露问题,并有效平衡视觉和音频模态之间的控制强度。
2024-09-11 22:56:43 849
原创 突破性进展!只需单张参考图,完美仿写各种手写内容!华南理工等开源One-DM
现有手写文本生成方法通常需要超过十个样本作为风格参考。实际应用中,用户偏好只用一个样本的生成模型以提高便利性和效率。单样本生成方法面临捕捉细节和处理背景噪声的挑战,特别是在字符边缘的高频信息提取上困难重重。提出了“单样本扩散模仿器”(One-DM)来生成手写文本,并能模仿任何书法风格。开发了一种风格增强模块,利用样本中的高频信息(如字符倾斜和字母连接)来提升风格提取效果。将风格特征与文本内容融合,作为扩散模型生成手写文本的引导条件。风格增强模块提取并增强样本中的高频信息,以捕捉细腻的风格细节。
2024-09-11 22:38:54 1035
原创 高保真+通用!视频扩散模型加持,稀疏视图重建任意场景!清华&港科大发布ReconX
给定 个稀疏视角(即,少至两个)图像 ,其中 ,目标是重建基础的3D场景,并合成未见视角的新视图。在框架 ReconX 中,首先从 中构建一个全局点云 ,并将 投影到3D上下文表示空间 中,作为结构指导。然后,将 注入视频扩散过程中,以生成3D一致的视频帧 ,其中 ,从而创建更多的观测。为缓解生成视频间不一致性导致的负面伪影,我们利用来自 DUSt3R 模型的置信度图 和 LPIPS 损失来实现鲁棒的3D重建。通过这种方式,我们能够释放视频扩散模型的全部潜力,从非常稀疏的视角中重建复杂的3D场景。
2024-09-10 09:09:59 1321
原创 兼顾身份保护和文本对齐!中山大学等提出CoRe:任意提示的文本到图像个性化生成!
文章链接:https://arxiv.org/pdf/2408.15914CoRe只用于输出embedding和注意力图,不需要生成图像,可以用于任意提示。在身份保护和文本对齐方面表现出优越的性能,特别是对于需要高度视觉可变性的提示。除了个性化一般对象外,方法还可以很好地实现人脸个性化,与最近的三种人脸个性化方法相比,生成了更多保留身份的人脸图像。近年来,文本到图像的个性化生成技术取得了显著进展,能够针对用户提供的概念实现高质量且可控的图像合成。
2024-09-10 08:26:45 966
原创 长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。
2024-09-09 23:50:07 1019
原创 3D人体重建新SOTA!清华&腾讯等重磅发布MagicMan:单一图像生成高质量人体新突破
MagicMan,一种通过利用图像扩散模型作为 2D 生成先验和 SMPL-X 模型作为 3D 身体先验的方法,从单张参考图像生成人体的新视角。基于此,作者提出的高效混合多视角注意力机制确保了生成更密集的多视角图像,同时保持高的 3D 一致性,这一效果通过几何感知双分支进一步得到增强。此外,作者的新型迭代优化过程通过逐次迭代优化初始估计的 SMPL-X 姿势,以提高生成新视角的一致性,并缓解由不准确 SMPL-X 估计引起的几何畸形问题。
2024-09-09 23:37:43 1569
原创 可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!
本解读已获得论文作者的原创解读授权文章链接:https://arxiv.org/pdf/2408.16768在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Pointcode链接:https://github.com/ZiyuGuo99/SAM2Point:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D-3D 投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。
2024-09-08 08:46:59 1101
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人