- 博客(207)
- 收藏
- 关注
原创 长视频生成再突破!高质量连贯达600帧 | ConFiner:专家链加持的免训练长视频生成器
视频生成质量低:难以同时实现高质量的时间和空间建模。生成过程耗时:通常需要数百次推理步骤,时间成本较高。生成视频长度短:由于VRAM限制,生成视频的长度通常只有2-3秒。模型负担重:单一模型处理复杂的多维度视频生成任务,难以兼顾所有需求。
2024-09-09 23:50:07
1030
原创 3D人体重建新SOTA!清华&腾讯等重磅发布MagicMan:单一图像生成高质量人体新突破
MagicMan,一种通过利用图像扩散模型作为 2D 生成先验和 SMPL-X 模型作为 3D 身体先验的方法,从单张参考图像生成人体的新视角。基于此,作者提出的高效混合多视角注意力机制确保了生成更密集的多视角图像,同时保持高的 3D 一致性,这一效果通过几何感知双分支进一步得到增强。此外,作者的新型迭代优化过程通过逐次迭代优化初始估计的 SMPL-X 姿势,以提高生成新视角的一致性,并缓解由不准确 SMPL-X 估计引起的几何畸形问题。
2024-09-09 23:37:43
1717
原创 可提示 3D 分割研究里程碑!SAM2Point:SAM2加持泛化任意3D场景、任意提示!
本解读已获得论文作者的原创解读授权文章链接:https://arxiv.org/pdf/2408.16768在线demo: https://huggingface.co/spaces/ZiyuG/SAM2Pointcode链接:https://github.com/ZiyuGuo99/SAM2Point:SAM2POINT 通过将 3D 数据体素化为视频格式,避免了复杂的 2D-3D 投影,实现了高效的零样本 3D 分割,同时保留了丰富的空间信息。
2024-09-08 08:46:59
1112
原创 单GPU一分钟生成16K高清图像!新加坡国立发布LinFusion:无缝兼容Stable Diffusion插件
现有基于Transformer的UNet模型在生成高分辨率视觉内容时面临时间和内存复杂度的挑战,特别是在处理空间token数量时。
2024-09-08 08:36:24
1195
原创 ECCV`24 | 蚂蚁集团开源风格控制新SOTA!StyleTokenizer:零样本精确控制图像生成
最终,风格嵌入和文本嵌入被结合,并输入到SD的文本编码器中,这样风格图像就可以作为风格提示来生成图像,从而更好地描述所需风格。同时,风格和内容在各自独立的语义空间中处理,避免了风格和内容之间的重叠。例如,在生成的图像中,尽管包含了山脉和向日葵,但参考图像中的人类也出现在了结果中。这种方法帮助模型在嵌入空间中将相同风格的图像聚集在一起,而将不同风格的图像分散开来,从而增强了风格编码器处理新风格的鲁棒性。由于本文方法能够保持参考图像中的风格,如果使用多张不同风格的图像作为参考,则风格融合会产生新的风格。
2024-09-07 21:29:52
1412
原创 风格控制水平创新高!南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架
比较了最近的几种先进的基于反演的风格识别方法,包括Chung等人(2024)的StyleID、Hertz等人(2024)的StyleAligned方法,以及基于Transformer结构的StyTR2 Deng等人(2022)。所提出的风格迁移模型CSGO,如下图4所示,旨在实现任意图像的任意风格化,而无需微调,包括素描和自然图像驱动的风格迁移、文本驱动的风格化合成以及文本编辑驱动的风格化合成。所提出的方法支持文本驱动的风格控制,即给定一个文本提示词和一个风格图像,生成具有相似风格的图像。
2024-09-07 21:15:59
858
原创 最高加速超4倍!不依赖特定模型的统一模型压缩框架CPD发布(卡尔斯鲁厄理工学院)
下图2展示了本文方法的概述。本文的方法依赖于三个组件的结合。如前所述,需要确保输入到模型中特定操作(如加法和乘法)的维度匹配。为此,引入了一种分层依赖解析算法,旨在检测这些依赖关系。该算法生成了一组耦合组,其中包括需要同时剪枝的参数以保持一致的通道维度。基于这些耦合组,可以开始对给定模型进行剪枝。不是随机选择一个组并剪枝其中的神经元,而是使用基于Hessian的重要性评分对神经元进行排序,根据其重要性在每次迭代中移除最不重要的神经元。
2024-08-29 09:17:21
899
原创 超越Text2Video-Zero|无需额外训练,条件生成、专门生成和指令引导的视频编辑全搞定!
论文链接:https://arxiv.org/pdf/2407.21475github链接: https://densechen.github.io/zss/本文提出了一种新颖的zero-shot视频采样算法,该算法能够直接从预训练的图像扩散模型中采样高质量的视频片段。本文提出了一个依赖噪声模型和时间动量注意力机制,首次能够灵活地控制生成视频中的时间变化。通过广泛的应用展示了本文方法的有效性,包括条件和专门的视频生成,以及由文本指令指导的视频编辑。
2024-08-29 08:44:03
613
原创 统一单ID和多ID个性化框架!阿里发布UniPortrait:质量和多样性超越现有方法
文章链接:https://arxiv.org/pdf/2408.05939git链接:https://aigcdesigngroup.github.io/UniPortrait-Page/demo链接:https://huggingface.co/spaces/Junjie96/UniPortrait本文提出了UniPortrait,一种创新的人像图像个性化框架,统一了单ID和多ID的定制,具有高面部保真度和可控性;
2024-08-28 09:07:14
688
原创 像艺术家一样画画:通过构图、绘画和润色用扩散模型生成复杂场景(国科大&美图)
复杂场景的生成不足:尽管文本生成图像的扩散模型在图像质量上取得了显著进展,但复杂场景的生成仍然相对未被充分探索。“复杂场景”定义不明确:关于“复杂场景”的具体定义尚不清晰,导致难以有效处理这类生成任务。
2024-08-28 08:55:29
823
原创 ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
文章链接:https://arxiv.org/pdf/2408.00106git链接:https://github.com/xdxie/WAS_WordArt-Segmentation提出了艺术文本分割这一新任务,并构建了一个真实数据集用于模型性能基准测试。设计了训练数据合成策略,生成了包含10万对图像-mask 的合成数据集。引入了逐层动量查询机制和骨架辅助头,以应对局部笔画的变化和全局结构的复杂性。在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果,并简化了文本分割的实验范式。
2024-08-25 08:53:33
682
原创 ECCV`24|T2I与StlyeGAN2首次联手!PreciseControl:单肖像生成精细个性化图像!
论文链接:https://arxiv.org/pdf/2408.05083工程主页:https://rishubhpar.github.io/PreciseControl.home/git链接:https://github.com/rishubhpar/PreciseControl首次提出将大型文本到图像(T2I)模型与StyleGAN2结合的方法,通过将T2I模型条件化在丰富的潜在空间上实现。使用单张肖像图像进行有效个性化的方法,使得在空间中进行细粒度的属性编辑,并通过文本提示实现粗略编辑。
2024-08-25 08:47:55
550
原创 360发布FancyVideo:通过跨帧文本指导实现动态且一致的视频生成SOTA!
文章链接:https://arxiv.org/pdf/2408.08189项目链接:https://360cvgroup.github.io/FancyVideo/本文介绍了,据众所知的首个探索T2V任务中跨帧文本指导的开创性尝试。该方法为增强当前的文本控制方法提供了新的视角。本文提出了跨帧文本指导模块(CTGM),该模块构建跨帧文本条件,并随后以强大的时间合理性引导潜在特征的建模。它可以有效地增强视频的运动性和一致性。本文证明了结合跨帧文本指导是一种实现高质量视频生成的有效方法。
2024-08-24 15:28:51
574
原创 勇夺三项SOTA!北航&爱诗科技联合发布灵活高效可控视频生成方法TrackGo!
论文链接:https://arxiv.org/pdf/2408.11475项目链接:https://zhtjtcz.github.io/TrackGo-Page/亮点直击本文引入了一种新颖的运动可控视频生成方法,称为TrackGo。该方法为用户提供了一种灵活的运动控制机制,通过结合 masks 和箭头,实现了在复杂场景中的精确操控,包括涉及多个对象、细粒度对象部件和复杂运动轨迹的场景。本文开发了一个新组件,称为TrackAdapter,用于有效且高效地将运动控制信息集成到时间自注意力层中。
2024-08-24 15:24:04
877
原创 ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
论文链接: https://arxiv.org/pdf/2408.08332git地址:https://betterze.github.io/TurboEdit/提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。对扩散蒸馏过程的一种新兴特性进行分析。方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。
2024-08-22 09:14:26
942
原创 全面提升!上海交大等联合发布MegaFusion:无须微调的高效高分辨率图像生成方法
文章链接:https://arxiv.org/pdf/2408.11001项目链接:https://haoningwu3639.github.io/MegaFusion/提出了一种无需调优的方法——MegaFusion,通过截断与传递策略,以粗到细的方式高效生成百万像素的高质量、高分辨率图像;结合了膨胀卷积和噪声重新调度技术,进一步优化了预训练扩散模型对高分辨率的适应性;
2024-08-22 09:06:19
1129
原创 又见神仙打架,全面超越快手可灵?智谱AI联合清华发布CogVideoX | 技术报告解析
文章链接:https://arxiv.org/pdf/2408.06072项目链接:https://github.com/THUDM/CogVideo近期,国产视频生成领域发展迅速,各家模型都在效果上下足了功夫,可谓神仙打架,前面分享过可灵,效果可以媲美Sora,这次智谱AI又发布了,效果如何呢,我们一起来看看。是一个基于文本提示生成视频的大规模扩散Transformer模型。为了高效地建模视频数据,提出使用3D变分自编码器(VAE)在空间和时间维度上对视频进行压缩。
2024-08-20 08:56:27
1233
原创 即插即用,效率远超ControlNet!贾佳亚团队重磅开源ControlNeXt:超强图像视频生成方法
文章链接:https://arxiv.org/pdf/2408.06070git链接:https://github.com/dvlab-research/ControlNeXt项目链接:https://pbihao.github.io/projects/controlnext/index.html提出了ControlNeXt,这是一种强大且高效的图像和视频生成方法,大幅减少了延迟开销和参数量。
2024-08-20 08:51:53
745
原创 具身智能成败之关键!干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型!
文章链接:https://arxiv.org/pdf/2405.14093本综述是关于具身智能领域中新兴的视觉-语言-动作模型的首次全面回顾。对具身智能领域中涌现的VLA模型进行了全面回顾,涵盖了架构、训练目标和机器人任务等各个方面。引入了当前机器人系统的分层结构分类法,包含三个主要组件:预训练、控制策略和任务规划器。预训练技术旨在增强VLAs的特定方面,如视觉编码器或动力学模型。低层次控制策略根据指定的语言命令和感知到的环境执行低层次动作。高层次任务规划器将长远任务分解为由控制策略执行的子任务。
2024-08-18 22:32:33
1060
原创 史上最强文生图模型?谷歌Imagen3内部详细评估资料解读
文章链接:https://arxiv.org/pdf/2408.07009Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。
2024-08-18 22:25:29
1393
原创 图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。
2024-08-12 20:15:52
1164
原创 视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接:https://arxiv.org/pdf/2408.04567 项目地址:https://xrvisionlabs.github.io/Sketch2Scene/亮点直击可控的、基于草图指导的2D isometric图像生成流程。一个基底图修补模型,通过在新数据集上进行逐步展开的去噪扩散训练。基于学习的组合式3D场景理解模块。一个程序化生成流程,用于使用上述场景理解模块获得的场景参数渲染互动3D场景。3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强
2024-08-12 20:12:07
1075
原创 能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
论文链接:https://arxiv.org/pdf/2408.02629项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/git链接:https://github.com/SAIS-FUXI/VidGen引入了一个专门用于训练文本到视频模型的高质量视频数据集。提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。
2024-08-09 08:52:20
942
原创 IPAdapter+再进化,可同时学习多个任务!Unity开源新思路:图像条件结合指令提示
文章链接:https://arxiv.org/pdf/2408.03209git链接:https://unity-research.github.io/IP-Adapter-Instruct.github.io/demo链接:https://huggingface.co/spaces/unity/IP-Adapter-Instruct提出IPAdapter-Instruct模型:结合自然图像条件与文本指令,灵活切换多种解释方式(如风格迁移、物体提取),简化任务处理。
2024-08-09 08:16:20
537
原创 MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
假设目标分布是,将信号分割成多个子任务: ... 对于第t个条件概率拟合任务,采用网络θ来拟合它。对于任意两个任务t和k以及两个状态样本s和,如果将这种信号分解称为等变。可以观察到,语言分解是独立于位置的。对于任何token 或短语,它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致,因此表明语言分解表现出等变性。因此,采用单一模型来近似这些不同但相关的任务通常不会导致冲突,实际上,这对数据的整体建模非常有利。
2024-08-07 21:55:36
1087
原创 视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
文章链接:https://arxiv.org/pdf/2408.02657git链接:https://github.com/Alpha-VLLM/Lumina-mGPT通过多模态生成预训练的自回归Transformer,而不是从头训练,可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。基于mGPTs,引入了两种新的微调策略,FP-SFT和Omni-SFT,以在从弱到强的范式中充分释放它们的潜力,仅使用1000万高质量的文本-图像数据。
2024-08-07 21:35:30
727
原创 ICML 2024 | 矛与盾的较量!北大提出提示无关数据防御保护算法PID
在文本编码器也进行微调的情况下,PID引发严重的噪声、低质量图像,这些图像与训练数据几乎没有语义相关性,表现为降低的FDS(0.303和0.288)、显著降低的IQS(-8.979和-14.764)、高的BRISQUE(28.927和50.112)。的情况,显示的图像来自候选模型中视觉效果最佳的模型。本文使用↑(数值增加)和↓(数值减少)表示更好的保护效果的方向,例如,较大的FID表示生成图像与训练图像的分布之间存在更大的距离,表明生成的图像未能很好地捕捉训练数据,从而保护了训练数据的隐私。
2024-08-05 07:48:33
941
原创 超越DiffEdit、SDEdit等6大编辑模型!字节等提出人像服饰、卡通表情编辑新SOTA!
文章链接:https://arxiv.org/pdf/2407.20455一种数据生成技术,提供了具有更好身份和布局对齐的配对数据;一种多条件扩散模型,能够生成保留特征的结果,并在推理中提供准确的编辑mask指导;实现了最先进的人像编辑效果。现有的技术在进行人像编辑时面临挑战,难以保留主体特征(如身份)。本文提出了一种基于训练的方法,通过自动生成的配对数据来学习所需的编辑,同时确保保留未更改的主体特征。具体来说,本文设计了一个数据生成过程,以低成本创建合理的编辑训练对。
2024-08-05 07:39:38
1148
原创 颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
文章链接:https://arxiv.org/pdf/2407.16224git链接:https://humanaigc.github.io/outfit-anyone/顶尖逼真度:OutfitAnyone 方法为虚拟试穿设立了新的行业标准,提供行业领先的高质量结果。高鲁棒性:OutfitAnyone 可以支持任何人、任何服装、任何体型和任何场景的虚拟试穿。灵活控制:支持各种姿势和体型引导方法,包括 (openpose,SMP,densepose)。
2024-08-02 09:07:52
1121
原创 寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
论文链接:https://arxiv.org/pdf/2407.21705项目链接:https://ali-videoai.github.io/tora_video/亮点直击本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。
2024-08-02 09:03:06
830
原创 ECCV`24 | 比DragDiffusion快100倍!RegionDrag:快·准·好的图像编辑方法!港大&牛津
文章链接:https://arxiv.org/pdf/2407.18247github链接:https://github.com/LuJingyi-John/RegionDrag引入了一种基于区域的图像编辑方法,以克服基于点拖拽方法的局限性,利用更丰富的输入上下文来更好地对齐编辑结果与用户的意图。通过采用无梯度的复制粘贴操作,基于区域的图像编辑比现有方法快得多(见上图1),在一次迭代中完成拖拽。
2024-08-01 08:50:52
1053
原创 ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜!ReCorD:交互场景生成最新SOTA!
文章链接:https://arxiv.org/pdf/2407.17911git链接:https://alberthkyhky.github.io/ReCorD/引入了一种新颖的推理框架,将潜在扩散模型(LDM)与视觉语言模型(VLM)相结合,以克服生成逼真的人与物体互动(HOI)时面临的挑战,缓解了以往方法中的问题,例如大语言模型(LLM)对简单文本提示的过度分析以及LDM中的训练数据偏差。
2024-08-01 08:42:43
699
原创 具身智能又进一步!卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取
尽管Omnigrasp展示了控制模拟人形机器人抓取各种物体并在保持物体的同时跟随全方向轨迹的可行性,但仍然存在许多限制。例如,尽管输入和奖励中提供了6自由度(6DoF)输入,系统在旋转误差方面仍需进一步改进。Omnigrasp尚未支持精确的手内操作。轨迹跟随的成功率可以提高,因为物体可能会掉落或无法被拾起。另一个改进领域是实现对物体的特定类型抓取,这可能需要额外的输入,例如所需的接触点和抓取方式。即使在模拟中,实现人类水平的灵巧度仍然具有挑战性。有关失败案例的可视化,请参见补充网站。
2024-07-31 09:06:51
989
原创 连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!
文章链接:https://arxiv.org/pdf/2407.08683github链接:https://github.com/TencentARC/SEED-StorySEED-Story,一种利用多模态大语言模型(MLLM)生成具有丰富叙述性文本和上下文相关图像的多模态故事的新方法。提出了多模态注意力汇聚机制,以高效生成长度大于训练时使用的序列长度的长故事。引入了StoryStream,这是一个专门为训练和基准测试多模态故事生成而设计的大规模数据集。
2024-07-31 08:42:23
928
原创 CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D
通过渲染合成逼真的新视角图像,神经辐射场(NeRF)及其变体已经成为3D甚至4D动态场景的主要神经表示方法。除了仅仅表示现有场景之外,越来越多的人对通过场景编辑从原始场景创建新的、多样化的场景产生了兴趣。对于用户来说,最方便和直接的方式来传达场景编辑操作是通过自然语言——这一任务被称为指令引导的编辑。在2D图像任务中,已经通过2D扩散模型,即 Instruct-Pix2Pix (IP2P)取得了成功。然而,将这一能力扩展到以NeRF表示的3D或4D场景却面临显著挑战。
2024-07-26 21:47:10
848
原创 超燃!纯AI生成《泰坦尼克号》大片!浙大&阿里发布MovieDreamer:超长电影生成“梦工厂“
论文链接:https://arxiv.org/pdf/2407.16655项目主页:https://aim-uofa.github.io/MovieDreamer/github链接:https://github.com/aim-uofa/MovieDreamer,一个新颖的分层框架,将自回归模型与扩散渲染结合起来,平衡长时间叙事连贯性与短时间视觉保真度。该方法大幅延长了生成视频内容的时长,达到个关键帧。使用多模态自回归模型生成视觉token序列。自回归模型支持和。
2024-07-26 21:37:53
592
原创 超越所有NeRF方法!快速和高质量的3D编辑和身份保持新策略:DreamCatalyst
论文链接:https://arxiv.org/pdf/2407.11394github链接:https://dream-catalyst.github.io/本文通过将DDS解释为SDEdit过程,提出了一种3D编辑的一般公式,并提出了一种用于快速编辑和质量改进的专门公式。在一般的3D编辑任务中采用了递减时间步采样,这是一种在3D生成任务中常用的加速训练速度的采样算法,解决了以往工作中面临的挑战。首次引入FreeU用于3D编辑,以增强可编辑性,克服重新加权编辑目标公式中固有的权衡。
2024-07-26 00:12:14
683
原创 ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
本文提出的框架的整体流程如下图2所示。给定一个未配对的低光图像 和正常光图像 ,首先使用一个编码器 ,它由 个级联的残差块组成,每个块使用最大池化层将输入按比例降采样 倍,将输入图像转换为潜空间表示,表示为 和。然后,设计了一个内容传输分解网络(CTDN),将这些特征分解为富含内容的反射率图 和 ,以及无内容的照明图 和。随后, 和 作为扩散模型的输入,结合低光特征的指导,生成恢复的特征。最后,恢复的特征将送入解码器 进行重建,生成最终的恢复图像。
2024-07-26 00:00:35
1712
4
原创 ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!
论文链接:https://arxiv.org/pdf/2311.16445代码链接:https://github.com/YichaoCai1/CLAP亮点直击:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模型的图像编码器提供的学习特征中提取潜在内容特征。
2024-07-24 20:29:57
1986
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅