图像编辑
文章平均质量分 91
AI生成未来
这个作者很懒,什么都没留下…
展开
-
抛弃UNet,首个基于DiT的图像编辑框架!DiT4Edit:多尺寸编辑质量更优 | 北大&港科大
解决的问题现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下,Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系,但目前在图像编辑领域的应用仍较少。提出的方案本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量,与传统UNet框架常用的DDIM反演算法相比,显著减少了迭代步数。原创 2024-11-12 08:10:41 · 388 阅读 · 0 评论 -
灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!
解决的问题离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出的方案提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。应用的技术。原创 2024-10-25 08:42:21 · 961 阅读 · 0 评论 -
2万字长文看透基于扩散模型的图像编辑理论和实践!(中科院&南科大&苹果&Adobe)
如何利用去噪扩散模型进行高质量的图像生成和编辑。系统地分类和评估扩散模型在图像编辑中的应用。原创 2024-10-24 21:36:56 · 715 阅读 · 0 评论 -
首篇!全面系统解读高效SAM变体:各种加速策略和核心技术展示
是图像分割领域中的一个强大基础模型,旨在通过基本的可提示分割任务,利用提示工程来统一各种分割任务。该项目的一个显著贡献是 SA-1B 数据集,该数据集包含来自 1100 万张经过许可和隐私保护的图像生成的超过 10 亿个masks。在如此丰富和高质量的数据上进行训练,SAM 展现出强大的鲁棒性和泛化能力。SAM 的巨大潜力迅速引起了研究人员对探索其在广泛现实应用中的能力以及改进其架构以实现更高效或更准确分割的兴趣。最近,被提出作为继任者,专注于高效的可提示视觉分割 (PVS),适用于图像和视频。原创 2024-10-14 08:49:38 · 1383 阅读 · 0 评论 -
长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。原创 2024-10-12 08:55:08 · 724 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-10-09 21:43:35 · 809 阅读 · 0 评论 -
视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。原创 2024-10-09 21:37:43 · 1344 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 703 阅读 · 0 评论 -
ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
文章链接:https://arxiv.org/pdf/2408.00106git链接:https://github.com/xdxie/WAS_WordArt-Segmentation提出了艺术文本分割这一新任务,并构建了一个真实数据集用于模型性能基准测试。设计了训练数据合成策略,生成了包含10万对图像-mask 的合成数据集。引入了逐层动量查询机制和骨架辅助头,以应对局部笔画的变化和全局结构的复杂性。在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果,并简化了文本分割的实验范式。原创 2024-08-25 08:53:33 · 682 阅读 · 0 评论 -
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
论文链接: https://arxiv.org/pdf/2408.08332git地址:https://betterze.github.io/TurboEdit/提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。对扩散蒸馏过程的一种新兴特性进行分析。方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。原创 2024-08-22 09:14:26 · 942 阅读 · 0 评论
分享