AIGC
文章平均质量分 89
AI生成未来
这个作者很懒,什么都没留下…
展开
-
史上最强文生图模型?谷歌Imagen3内部详细评估资料解读
文章链接:https://arxiv.org/pdf/2408.07009Imagen 3,目前Google最好的文生图扩散模型,是一种潜在扩散模型,可以从文本提示生成高质量的图像。详细描述了 Imagen 3 质量和责任评估,发现Imagen 3相比其他SOTA模型更受欢迎。讨论了安全和表征问题,以及用于最小化本文模型潜在危害的方法。原创 2024-08-18 22:25:29 · 1148 阅读 · 0 评论 -
图像文本擦除无痕迹!复旦提出EAFormer:最新场景文本分割新SOTA!(ECCV`24)
为了避免涉及非文本区域的边缘,引入了一个轻量级文本检测模块,用于过滤掉无用的边缘,以进行文本分割。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。原创 2024-08-12 20:15:52 · 945 阅读 · 0 评论 -
视觉效果超赞!随意画个草图就能生成3D交互游戏场景!腾讯XR出品
文章链接:https://arxiv.org/pdf/2408.04567 项目地址:https://xrvisionlabs.github.io/Sketch2Scene/亮点直击可控的、基于草图指导的2D isometric图像生成流程。一个基底图修补模型,通过在新数据集上进行逐步展开的去噪扩散训练。基于学习的组合式3D场景理解模块。一个程序化生成流程,用于使用上述场景理解模块获得的场景参数渲染互动3D场景。3D内容生成是许多计算机图形应用的核心,包括视频游戏、电影制作、虚拟现实和增强原创 2024-08-12 20:12:07 · 871 阅读 · 0 评论 -
能训出SOTA模型的优质数据集发布!复旦最新VidGen-1M: 文生视频还得靠好数据
论文链接:https://arxiv.org/pdf/2408.02629项目链接:https://sais-fuxi.github.io/projects/vidgen-1m/git链接:https://github.com/SAIS-FUXI/VidGen引入了一个专门用于训练文本到视频模型的高质量视频数据集。提出了一种多阶段策展方法,在有限计算资源下实现精准且高质量的数据策展。发布了本文的文本到视频模型,该模型生成的高质量视频在性能上超越了当前最先进的方法。原创 2024-08-09 08:52:20 · 858 阅读 · 0 评论 -
IPAdapter+再进化,可同时学习多个任务!Unity开源新思路:图像条件结合指令提示
文章链接:https://arxiv.org/pdf/2408.03209git链接:https://unity-research.github.io/IP-Adapter-Instruct.github.io/demo链接:https://huggingface.co/spaces/unity/IP-Adapter-Instruct提出IPAdapter-Instruct模型:结合自然图像条件与文本指令,灵活切换多种解释方式(如风格迁移、物体提取),简化任务处理。原创 2024-08-09 08:16:20 · 460 阅读 · 0 评论 -
MSRA古纾旸:2024年,视觉生成领域最重要的问题有哪些?
假设目标分布是,将信号分割成多个子任务: ... 对于第t个条件概率拟合任务,采用网络θ来拟合它。对于任意两个任务t和k以及两个状态样本s和,如果将这种信号分解称为等变。可以观察到,语言分解是独立于位置的。对于任何token 或短语,它们在句子中第t个或第k个位置出现的概率几乎相同。这一观察结果与方程2一致,因此表明语言分解表现出等变性。因此,采用单一模型来近似这些不同但相关的任务通常不会导致冲突,实际上,这对数据的整体建模非常有利。原创 2024-08-07 21:55:36 · 1033 阅读 · 0 评论 -
视觉全能!自回归要反超扩散?Lumina-mGPT:任意分辨率丝滑逼真图像生成(上海AI Lab)
文章链接:https://arxiv.org/pdf/2408.02657git链接:https://github.com/Alpha-VLLM/Lumina-mGPT通过多模态生成预训练的自回归Transformer,而不是从头训练,可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。基于mGPTs,引入了两种新的微调策略,FP-SFT和Omni-SFT,以在从弱到强的范式中充分释放它们的潜力,仅使用1000万高质量的文本-图像数据。原创 2024-08-07 21:35:30 · 515 阅读 · 0 评论 -
ICML 2024 | 矛与盾的较量!北大提出提示无关数据防御保护算法PID
在文本编码器也进行微调的情况下,PID引发严重的噪声、低质量图像,这些图像与训练数据几乎没有语义相关性,表现为降低的FDS(0.303和0.288)、显著降低的IQS(-8.979和-14.764)、高的BRISQUE(28.927和50.112)。的情况,显示的图像来自候选模型中视觉效果最佳的模型。本文使用↑(数值增加)和↓(数值减少)表示更好的保护效果的方向,例如,较大的FID表示生成图像与训练图像的分布之间存在更大的距离,表明生成的图像未能很好地捕捉训练数据,从而保护了训练数据的隐私。原创 2024-08-05 07:48:33 · 905 阅读 · 0 评论 -
超越DiffEdit、SDEdit等6大编辑模型!字节等提出人像服饰、卡通表情编辑新SOTA!
文章链接:https://arxiv.org/pdf/2407.20455一种数据生成技术,提供了具有更好身份和布局对齐的配对数据;一种多条件扩散模型,能够生成保留特征的结果,并在推理中提供准确的编辑mask指导;实现了最先进的人像编辑效果。现有的技术在进行人像编辑时面临挑战,难以保留主体特征(如身份)。本文提出了一种基于训练的方法,通过自动生成的配对数据来学习所需的编辑,同时确保保留未更改的主体特征。具体来说,本文设计了一个数据生成过程,以低成本创建合理的编辑训练对。原创 2024-08-05 07:39:38 · 1047 阅读 · 0 评论 -
颠覆虚拟试衣行业标准!阿里发布OutfitAnyone:任意服装+任意人!
文章链接:https://arxiv.org/pdf/2407.16224git链接:https://humanaigc.github.io/outfit-anyone/顶尖逼真度:OutfitAnyone 方法为虚拟试穿设立了新的行业标准,提供行业领先的高质量结果。高鲁棒性:OutfitAnyone 可以支持任何人、任何服装、任何体型和任何场景的虚拟试穿。灵活控制:支持各种姿势和体型引导方法,包括 (openpose,SMP,densepose)。原创 2024-08-02 09:07:52 · 1043 阅读 · 0 评论 -
寥寥数笔,动画自成!阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成
论文链接:https://arxiv.org/pdf/2407.21705项目链接:https://ali-videoai.github.io/tora_video/亮点直击本文引入了Tora,这是第一个轨迹导向的DiT用于视频生成。如下图2所示,Tora无缝整合了广泛的视觉和轨迹指令,从而能够熟练地创建可操控运动的视频。为了与DiT的可扩展性保持一致,本文设计了一种新颖的轨迹提取器和运动引导融合机制,以获取时空运动块,随后将这些块注入DiT块中。原创 2024-08-02 09:03:06 · 692 阅读 · 0 评论 -
ECCV`24 | 比DragDiffusion快100倍!RegionDrag:快·准·好的图像编辑方法!港大&牛津
文章链接:https://arxiv.org/pdf/2407.18247github链接:https://github.com/LuJingyi-John/RegionDrag引入了一种基于区域的图像编辑方法,以克服基于点拖拽方法的局限性,利用更丰富的输入上下文来更好地对齐编辑结果与用户的意图。通过采用无梯度的复制粘贴操作,基于区域的图像编辑比现有方法快得多(见上图1),在一次迭代中完成拖拽。原创 2024-08-01 08:50:52 · 985 阅读 · 0 评论 -
ACM MM 2024 | 比SDXL和DALL-E·3更引人入胜!ReCorD:交互场景生成最新SOTA!
文章链接:https://arxiv.org/pdf/2407.17911git链接:https://alberthkyhky.github.io/ReCorD/引入了一种新颖的推理框架,将潜在扩散模型(LDM)与视觉语言模型(VLM)相结合,以克服生成逼真的人与物体互动(HOI)时面临的挑战,缓解了以往方法中的问题,例如大语言模型(LLM)对简单文本提示的过度分析以及LDM中的训练数据偏差。原创 2024-08-01 08:42:43 · 651 阅读 · 0 评论 -
具身智能又进一步!卡内基梅隆&Meta&苏黎世联邦实现虚拟人超灵活抓取
尽管Omnigrasp展示了控制模拟人形机器人抓取各种物体并在保持物体的同时跟随全方向轨迹的可行性,但仍然存在许多限制。例如,尽管输入和奖励中提供了6自由度(6DoF)输入,系统在旋转误差方面仍需进一步改进。Omnigrasp尚未支持精确的手内操作。轨迹跟随的成功率可以提高,因为物体可能会掉落或无法被拾起。另一个改进领域是实现对物体的特定类型抓取,这可能需要额外的输入,例如所需的接触点和抓取方式。即使在模拟中,实现人类水平的灵巧度仍然具有挑战性。有关失败案例的可视化,请参见补充网站。原创 2024-07-31 09:06:51 · 915 阅读 · 0 评论 -
连环画创作源泉!港科大、腾讯等开源SEED-Story:开创性多模态长故事生成!
文章链接:https://arxiv.org/pdf/2407.08683github链接:https://github.com/TencentARC/SEED-StorySEED-Story,一种利用多模态大语言模型(MLLM)生成具有丰富叙述性文本和上下文相关图像的多模态故事的新方法。提出了多模态注意力汇聚机制,以高效生成长度大于训练时使用的序列长度的长故事。引入了StoryStream,这是一个专门为训练和基准测试多模态故事生成而设计的大规模数据集。原创 2024-07-31 08:42:23 · 818 阅读 · 0 评论 -
CVPR`24 | 4D编辑哪家强?浙大首次提出通用指导4D编辑框架:Instruct 4D-to-4D
通过渲染合成逼真的新视角图像,神经辐射场(NeRF)及其变体已经成为3D甚至4D动态场景的主要神经表示方法。除了仅仅表示现有场景之外,越来越多的人对通过场景编辑从原始场景创建新的、多样化的场景产生了兴趣。对于用户来说,最方便和直接的方式来传达场景编辑操作是通过自然语言——这一任务被称为指令引导的编辑。在2D图像任务中,已经通过2D扩散模型,即 Instruct-Pix2Pix (IP2P)取得了成功。然而,将这一能力扩展到以NeRF表示的3D或4D场景却面临显著挑战。原创 2024-07-26 21:47:10 · 766 阅读 · 0 评论 -
超燃!纯AI生成《泰坦尼克号》大片!浙大&阿里发布MovieDreamer:超长电影生成“梦工厂“
论文链接:https://arxiv.org/pdf/2407.16655项目主页:https://aim-uofa.github.io/MovieDreamer/github链接:https://github.com/aim-uofa/MovieDreamer,一个新颖的分层框架,将自回归模型与扩散渲染结合起来,平衡长时间叙事连贯性与短时间视觉保真度。该方法大幅延长了生成视频内容的时长,达到个关键帧。使用多模态自回归模型生成视觉token序列。自回归模型支持和。原创 2024-07-26 21:37:53 · 431 阅读 · 0 评论 -
超越所有NeRF方法!快速和高质量的3D编辑和身份保持新策略:DreamCatalyst
论文链接:https://arxiv.org/pdf/2407.11394github链接:https://dream-catalyst.github.io/本文通过将DDS解释为SDEdit过程,提出了一种3D编辑的一般公式,并提出了一种用于快速编辑和质量改进的专门公式。在一般的3D编辑任务中采用了递减时间步采样,这是一种在3D生成任务中常用的加速训练速度的采样算法,解决了以往工作中面临的挑战。首次引入FreeU用于3D编辑,以增强可编辑性,克服重新加权编辑目标公式中固有的权衡。原创 2024-07-26 00:12:14 · 633 阅读 · 0 评论 -
ECCV2024|LightenDiffusion 超越现有无监督方法,引领低光图像增强新纪元!
本文提出的框架的整体流程如下图2所示。给定一个未配对的低光图像 和正常光图像 ,首先使用一个编码器 ,它由 个级联的残差块组成,每个块使用最大池化层将输入按比例降采样 倍,将输入图像转换为潜空间表示,表示为 和。然后,设计了一个内容传输分解网络(CTDN),将这些特征分解为富含内容的反射率图 和 ,以及无内容的照明图 和。随后, 和 作为扩散模型的输入,结合低光特征的指导,生成恢复的特征。最后,恢复的特征将送入解码器 进行重建,生成最终的恢复图像。原创 2024-07-26 00:00:35 · 753 阅读 · 0 评论 -
ECCV2024 | 小成本微调CLIP大模型!CLAP开源来袭:零样本和少样本训练有救了!
论文链接:https://arxiv.org/pdf/2311.16445代码链接:https://github.com/YichaoCai1/CLAP亮点直击:本文提出了一种通过对比学习和数据增强,从因果角度微调预训练CLIP类模型的原始特征,以改进其视觉-语言特征的方法。:本文提出了一种针对预训练CLIP类模型的定制化方法。该方法利用一个解耦网络,通过对比学习和图像增强进行训练,从CLIP类模型的图像编码器提供的学习特征中提取潜在内容特征。原创 2024-07-24 20:29:57 · 1290 阅读 · 0 评论 -
我的发型我做主!上交联合Tiamat发布首个基于扩散的商业级发型移植框架:Stable-Hair!
本文的设计将发型移植过程分为两个阶段。首先,使用Bald Converter将用户输入的源图像转换为光头agent图像。其次,本文的模型将参考发型移植到光头agent图像上。这确保了发型移植的最佳稳定性,并保持源图像内容的一致性。如下图3所示,本文的Stable-Hair框架包含三个主要组件:Hair Extractor、Latent IdentityNet和新集成的Hair Cross-Attention Layers。原创 2024-07-24 20:15:43 · 943 阅读 · 0 评论 -
DALL-E 3不到50%,SDXL仅24.92%!各大SOTA文生图模型为啥这么难符合常识?
Commonsense-T2I 包括150个手动策划的示例,每个示例都有一对对抗性提示:和,它们对应的期望输出描述:和,每个输出发生的可能性得分,以及常识类别。一个数据样本只有在满足以下Commonsense-T2I标准时才符合要求:和具有相同的主语,但动作词不同。和完全对比,不能在同一图像中共存。在常识下,会导致,会导致在日常生活中成立。原创 2024-07-22 14:16:10 · 951 阅读 · 0 评论 -
YYDS!数字人终于实现穿、脱衣自由!上大、腾讯等提出3D服装合成新方法:ClotheDreamer
文章链接:https://arxiv.org/pdf/2406.16815项目地址:https://ggxxii.github.io/clothedreamer高保真度的基于文本的三维服装合成对于数字化人物创建是可取的,但也具有挑战性。最近基于扩散的方法,通过评分蒸馏抽样(SDS)实现了新的可能性,但要么与人体紧密耦合,要么难以重复使用。本文引入了ClotheDreamer,这是一种基于三维高斯的方法,用于从文本提示生成可穿戴的、适合生产的三维服装资产。原创 2024-07-22 14:11:59 · 961 阅读 · 0 评论 -
Still-Moving效果惊艳!无需定制视频数据,DeepMind让文生定制视频变得简单!
文章链接: https://arxiv.org/pdf/2407.08674github链接: https://still-moving.github.io/自定义文本生成图像(T2I)模型最近取得了巨大进展,尤其是在个性化、风格化和条件生成等领域。然而,将这些进展扩展到视频生成仍处于初期阶段,主要原因是缺乏定制视频数据。本文介绍了Still-Moving,是一种无需定制视频数据即可自定义文本生成视频(T2V)模型的新颖通用框架。原创 2024-07-15 22:29:46 · 876 阅读 · 0 评论 -
只需微调,大幅提升人脸生成质量!上交联合OPPO发布新标准和新方法
文章链接:https://arxiv.org/pdf/2406.17100今天和大家一起学习的是对现实生活中生成的人脸细节进行优化的工作。扩散模型(DMs)在根据文本描述生成想象力丰富的图像方面取得了显著的成功。然而,在处理现实生活中复杂细节的场景时,它们很可能会表现不佳。文本到图像生成中低质量、不真实的人脸是其中最突出的问题之一,这限制了DMs在实际应用中的广泛应用。原创 2024-07-19 08:40:26 · 673 阅读 · 0 评论 -
虚拟试衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍档
如前面图3所示,去噪UNet中的基本模块权重是冻结的,这使得服装UNet实际上成为一个适配器模块,与其他社区适配器兼容,以实现自定义面部和姿势生成。例如,要生成穿着给定服装和一致姿势的人的图像,IMAGDressing-v1可以与ControlNet-Openpose结合。要生成穿着指定服装的特定个人,IMAGDressing-v1可以与IP-Adapter集成。此外,如果需要同时指定姿势和面部,IMAGDressing-v1可以与ControlNet-Openpose和IP-Adapter结合使用。原创 2024-07-19 08:33:51 · 1200 阅读 · 1 评论 -
视觉文本视频生成最强方案!Text-Animator效果确实好!(中科大&腾讯等)
文本链接:https://arxiv.org/pdf/2406.17777github链接:laulampaul.github.io/text-animator.html视频生成在游戏、电子商务和广告等各行业中都是一个具有挑战性但至关重要的任务。在文本到视频(T2V)生成领域中,有效地在生成的视频中视觉文本是一个尚未解决的重要方面。尽管在文本到视频生成方面取得了一些进展,但现有的方法仍然无法直接在视频中有效地视觉文本,因为它们主要集中在总结语义场景信息、理解和描绘动作。原创 2024-07-18 12:23:08 · 379 阅读 · 0 评论 -
如何高效定制视频扩散模型?卡内基梅隆提出VADER:通过奖励梯度进行视频扩散对齐
论文链接:https://arxiv.org/pdf/2407.08737git链接:https://vader-vid.github.io/引入奖励模型梯度对齐方法:VADER通过利用奖励模型的梯度,对多种视频扩散模型进行调整和对齐,包括文本到视频和图像到视频的扩散模型。广泛使用预训练视觉模型:该方法涵盖了多种预训练视觉模型,以提高对不同任务的适应能力和性能。内存使用优化技巧:VADER提出了多种技巧,有效改善内存使用效率,使得可以在单个16GB VRAM的GPU上进行训练。原创 2024-07-18 12:14:19 · 472 阅读 · 0 评论 -
ECCV`24 | 编辑能力无上限!北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式!
CE3D,即Chat-Edit-3D,对话式3D场景编辑的突破。它的核心思想是通过大规模语言模型解析用户的任意文本输入,并自主调用相应的视觉模型来完成3D场景的编辑。为了实现任意视觉模型的集成,CE3D设计了名为Hash-Atlas的映射网络,将3D场景的编辑转换为2D图集空间内的操作,从而实现了2D编辑与3D重建过程的完全解耦,从此无需再指定固定的3D表示形式和2D编辑方法。原创 2024-07-17 00:43:54 · 858 阅读 · 0 评论 -
亲测大火的AI视频创作平台,哪些更好用?
总结:白日梦和vivago目前是完全免费的,vivago生成时间较短5秒钟左右,白日梦可最长6分钟,更适合于故事情节的生成。可以选择热点推荐,生成文案,也可以自己写文案,然后生成图片再转成视频。提供文本到图像、文本到视频、图像到视频等多种生成功能,用户只需输入描述性文字或上传图片,即可生成逼真的短视频,每个视频大概。与其他平台不同的是,它将段落按照每句生成的图片,该图片是可以选择分镜展示,中景、近景、远景以及正侧拍的选择,有了新的创意。使用,人物一致性还可以,图片拼接而成的视频,更适合创作连环画。原创 2024-07-16 13:54:26 · 632 阅读 · 0 评论 -
长视频生成速度提升100倍!新加坡国立提出Video-Infinity:分布式长视频生成
人类一直以来追求在数字系统中复制我们所生活的动态世界。传统上这部分工作由物理学和图形学主导,但最近随着数据驱动生成模型的出现而得到了增强。这些模型可以创建高度逼真的图像和视频,使其与现实难以区分。然而,这些模型通常只能生成非常短的视频片段,大多数限制在16-24帧。一些模型可以扩展到60或120帧,但在分辨率和视觉质量上做出了很大妥协。生成长视频面临重大挑战,主要是由于模型训练和推理所需的资源需求巨大。当前的模型受限于可用资源,通常在短片段上进行训练,很难在更长的序列中保持质量。原创 2024-07-15 22:34:31 · 914 阅读 · 0 评论 -
CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:实时4K分辨率4D视图合成
文章链接:https://arxiv.org/pdf/2310.11448git链接: https://zju3dv.github.io/4k4d/本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近,一些动态视图合成方法在渲染质量方面表现出色。然而,在渲染高分辨率图像时,它们的速度仍然有限。为解决这个问题,本文提出了4K4D,一种支持硬件光栅化的4D点云表示,能够实现前所未有的渲染速度。本文的表示基于4D特征网格构建,因此点云被自然地正则化并可以进行稳健优化。此外,设计了一种新原创 2024-07-12 09:11:27 · 955 阅读 · 0 评论 -
自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架
文章链接:https://arxiv.org/pdf/2407.07614github链接:https://github.com/fusiming3/MARSMARS,一个从自回归预训练LLM中改编而来的创新框架,专用于文本到图像(T2I)生成任务。为了确保保留NLP能力,同时为模型配备先进的视觉生成和理解能力,设计了一个名为SemVIE的模块,该模块在预训练LLM的注意力块中添加了并行的视觉专家。MARS放大了自回归方法在T2I生成和联合图像-文本合成中的灵活性,并具有扩展到任何任务的潜力。原创 2024-07-12 09:02:06 · 972 阅读 · 0 评论 -
海报生成如此简单!OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2
整个框架分为四部分,如下图3所示。第一个部分是融合文本编码器(Fusion Text Encoder, FTE)与字形embedding,其工作方式相对传统。其主要目标是从SD的文本编码器的角度整合两种模态的特征,从而确保生成图像中两种模态的紧密结合。本文的框架中的第二个也是更为关键的部分是引入三重交叉注意力(Triples of Cross-Attention, TCA)。这个阶段,在SD解码器部分引入了两个不同的交叉注意力层。第一个新的交叉注意力层促进了字形特征与图像中的隐藏变量之间的交互。原创 2024-07-11 09:19:57 · 455 阅读 · 0 评论 -
3D版“裁缝“开源来袭!Tailor3D:自定义3D编辑和资产生成(港大&上海AI-Lab&港中文)
文章链接:https://arxiv.org/pdf/2407.06191github链接:https://tailor3d-2024.github.io/提出了,一种快速的3D编辑pipeline。通过结合2D图像编辑和快速3D重建技术,它显著提高了3D对象编辑的效率。结合了LoRA Triplane Transformer,有效处理了前后视图之间的不一致性,提升了整体重建质量。原创 2024-07-11 09:11:54 · 854 阅读 · 0 评论 -
文本引导I2I迈向统一!北大王选所提出FCDiffusion:端到端适用于各种图像转换任务
文章链接:https://arxiv.org/pdf/2407.03006github地址:https://github.com/XiangGao1102/FCDiffusion最近,大规模的文本到图像(T2I)扩散模型在图像到图像(I2I)转换中展现出强大的能力,允许通过用户提供的文本提示进行开放域的图像转换。本文提出了频率控制的扩散模型(FCDiffusion),一种基于扩散的端到端框架,从频域的角度提供了文本引导的I2I的创新解决方案。原创 2024-07-10 09:06:46 · 750 阅读 · 0 评论 -
绝地归来!英伟达等提出JeDi:无需微调,个性化图像生成新SOTA![CVPR 2024]
文章链接:https://arxiv.org/pdf/2407.06187github链接:https://research.nvidia.com/labs/dir/jedi本文提出了一种无需微调的文本生成图像方法,采用了新颖的联合图像扩散模型。提出了一种简单且可扩展的数据合成流程,用于生成共享同一主题的多图像个性化数据集。设计了新颖的架构和采样技术,如耦合自注意力和图像引导,以实现高保真度的个性化生成。个性化文本生成图像模型使用户能够在不同场景中创建展示其个人物品的图像,并在各个领域找到应用。原创 2024-07-10 08:59:04 · 1146 阅读 · 0 评论 -
DreamTech联合南大和牛津发布最强3D内容生成大模型——Direct3D
文章链接:https://arxiv.org/pdf/2405.14832 github链接:https://nju-3dv.github.io/projects/Direct3D/从文本和图像生成高质量的3D资产一直是一项挑战,主要是由于缺乏能够捕捉复杂几何分布的可扩展3D表示。在这项工作中,介绍了Direct3D,这是一种可扩展到in-the-wild输入图像的原生3D生成模型,不需要多视角扩散模型或SDS优化。方法包括两个主要组件:Direct 3D Variational Auto-Enco原创 2024-07-02 21:21:57 · 707 阅读 · 0 评论 -
超越所有SOTA达11%!媲美全监督方法 | UC伯克利开源UnSAM
在七个流行数据集上评估结果显示,UnSAM在语义平均召回率(AR)方面与有监督的SAM模型取得了竞争力的结果,并且在无监督分割领域超过了先前的最新技术,提升了11%。通过将无监督伪masks集成到SA-1B的真实masks中,并仅使用SA-1B的1%进行训练,轻度半监督的UnSAM经常能够分割出有监督SAM忽视的实体,其在SA-1B数据集上的AR提升超过了6.7%,AP提升了3.9%。此外,无监督UnSAM模型取得了令人印象深刻的结果,与领先的监督SAM的性能相媲美,并在某些半监督设置下超越它。原创 2024-07-02 21:12:26 · 1051 阅读 · 0 评论 -
你的文生图模型可以秘密接收多模态提示了!南洋理工&腾讯最新提出EMMA
此外,本文引入了一种策略来组合已学习的EMMA模块,以同时生成基于多模态条件的图像,消除了需要对混合多模态提示进行额外训练的需求。大量实验表明,EMMA在保持生成图像的高保真度和细节方面效果显著,展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。最后一行展示了复合条件图像生成,可以生成既遵循指令又保留一张图像中的面部特征和另一张图像中的肖像元素的图像。多模态提示的创新集成机制:本文引入了EMMA,这是一种开创性的方式,将多模态提示的特征融合到图像生成过程中,同时不影响文本控制。原创 2024-06-28 00:18:06 · 506 阅读 · 0 评论