AI生成未来-CSDN博客

原创谷歌重磅发布CAT3D：一分钟搞定任意数量视图到3D场景重建

对3D内容的需求比以往任何时候都高，因为它对于实现游戏、视觉效果和可穿戴混合现实设备的实时交互至关重要。尽管需求很高，高质量的3D内容仍然相对稀缺。与可以轻松用消费级摄影设备捕捉的2D图像和视频不同，创建3D内容需要复杂的专业工具以及大量的时间和精力投入。幸运的是，最近在摄影测量技术方面的进展大大提高了从2D图像创建3D资产的可行性。方法如NeRF、Instant-NGP和Gaussian Splatting允许任何人通过拍摄真实场景的照片并优化该场景的底层3D几何和外观表示来创建3D内容。

2024-05-22 08:09:58 391

原创苹果超强视觉预训练模型助力下游任务拿SOTA！（分类、检测、分割、深度估计）

在计算机视觉领域，先在大规模语料库上进行预训练然后在目标任务上进行微调是一个常见的范式。在过去十年里，一种常见的预训练策略是在 ImageNet 上进行有监督的预训练。最近，诸如对比语言-图像预训练（CLIP）、BEiT和 DINO等在大规模数据集上训练的模型显示出能够学习到通用且高度可迁移的视觉表示。这些预训练模型随后被用作初始化，并在各种下游任务（如目标检测、语义分割和深度估计）中进行微调。尽管存在多种预训练方法，但没有一种方法能够对所有下游任务表现最佳。

2024-05-21 08:42:05 490

原创如何“正确“使用Stable Diffusion？文本到图像扩散模型中记忆化实用分析（浙大）

扩散概率模型在图像生成、视频、3D 点云等方面展现了令人印象深刻的能力。这些技术为商业系统或社区奠定了基础，如 Stable Diffusion、Midjourney、DALL·E 2/3 和 Imagen，吸引了数百万活跃用户。扩散模型的普及可以归因于分层去噪过程，该过程在数十亿数据上训练时提供了高稳定性，并且具备了对多模态条件生成的可扩展性。用于训练最先进的文本到图像生成模型的大规模数据集，例如开源图像描述数据集 LAION-5B，被广泛认为包含可能引起版权和隐私担忧的内容。

2024-05-20 08:45:20 958

原创迈向统一扩散框架！Adobe提出RGB↔X：双重利好下游编辑任务 | SIGGRAPH‘24

从图像中估计几何、着色和光照信息是计算机视觉社区长期以来一直在研究的问题，自从经典的固有图像分解工作开始。由于其受限性质，包括照明和材料之间的歧义性，这个问题本质上是困难的。最近的工作集中在与逐像素反向渲染相关的问题上。这产生了物理材料和光照估计，具体包括漫反射反照率、镜面粗糙度和金属度，以及各种空间变化的光照表示。将所有这些信息缓冲区称为固有通道，并用符号X表示，将估计它们的问题称为RGB→X。

2024-05-17 08:45:49 819

原创极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

在追求通用人工智能（AGI）的过程中，通用世界模型的发展被视为一个基本途径。通用世界模型通过生成过程来理解世界。值得注意的是，Sora模型的引入引起了极大关注。其出色的模拟能力不仅表明了对物理定律的初步理解，还突显了世界模型中具有前景的进展。站在人工智能创新的前沿，深入探讨世界模型的领域至关重要，揭示它们的复杂性，评估它们当前的发展阶段，并思考它们未来可能的发展轨迹。世界模型通过预测未来来增进对世界的理解。

2024-05-17 08:44:05 589

原创国内首个中文原生DiT架构SOTA大模型全面开源！———Hunyuan-DiT技术报告详解

基于扩散的文本生成图像模型，如DALL-E、Stable Diffusion和Pixart，已经展示了生成前所未有质量图像的能力。然而，它们缺乏直接理解中文提示的能力，限制了其在中文文本提示下的图像生成潜力。为了提高中文理解能力，提出了AltDiffusion、PAI-Diffusion和Taiyi，但它们的生成质量仍需改进。在本报告中，介绍了构建Hunyuan-DiT的完整流程，该模型可以根据英文和中文提示生成不同分辨率的高质量详细图像。

2024-05-15 08:18:00 605

原创 SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

在本文中解决了文本到动作的问题，即，给定一个角色动作的文本描述，本文旨在自动生成合理且逼真的3D人体动作。成功自动化此过程对于各种下游应用具有重要潜力，包括为增强和虚拟现实环境创建内容，推动机器人技术的进步，以及改进人机交互。作为自然语言处理、机器学习和计算机图形学交汇处的长期挑战，文本到动作生成近年来受到了广泛关注。扩散模型的出现，正如各种研究所强调的，推动了这一领域的显着进步。尽管取得了这些进展，从文本描述生成既在局部语义上准确又在全局上连贯的动作仍然是一个巨大的障碍。

2024-05-13 08:47:22 573

原创一文详解多模态智能体（LMAs）最新进展（核心组件/分类/评估/应用）

智能体（agent）是一个能够感知其环境并根据这些感知做出决策以达到特定目标的系统。尽管在狭窄领域内表现出色，早期智能体往往缺乏适应性和泛化能力，与人类智能存在显著差异。最近大语言模型（LLMs）的进展开始弥合这一差距，LLMs增强了它们在命令解释、知识吸收和模拟人类推理和学习方面的能力。这些智能体使用LLMs作为它们的主要决策工具，并进一步增强了关键的类人特征，如记忆。这种增强使它们能够处理各种自然语言处理任务，并使用语言与环境进行交互。

2024-05-13 08:44:08 989

原创 Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸馏框架发布

随着去噪扩散模型（DMs）的出现，生成建模已经发生了一场范式转变。这些模型在各个领域树立了新的基准，提供了前所未有的逼真性和多样性，同时确保了稳定的训练。然而，去噪过程的顺序性质带来了显著挑战。（i）每步神经网络评估的延迟，以及（ii）去噪步骤的总数。大量的研究工作致力于加速抽样过程。对于文本到图像的合成，提出的方法涵盖了广泛的技术，包括高阶求解器、用于曲率降低的修改扩散公式，以及引导、步骤和一致性蒸馏。这些方法取得了令人印象深刻的改进，在接近10步的区间内达到了非常高的质量。

2024-05-10 08:41:04 739

原创看Diffusion模型如何提升端到端自动驾驶的能力

自动驾驶（AD）领域近年来取得了显著进展，得益于车队收集的大规模数据集。这一数据爆炸提供了宝贵的训练资源。然而，一个关键问题出现了：收集到的数据往往存在对有利天气条件的偏向，比如晴朗和晴空万里。Waymo Open Dataset 和 BDD100K等数据集都表明了这一点，其中相当大一部分样本属于这一类别。这种不平衡影响了模型在分割和规划任务中的性能，尤其是在遇到像雨天或多云这样不太常见的场景时。此外，相关的手动标注成本对于额外收集的数据来说是相当大的。

2024-05-07 09:00:56 555

原创 ChatGPT的真实能力如何？七大NLP任务一探究竟！

自从OpenAI发布ChatGPT（Chat Generative Pre-trained Transformer）以来已经过去了一年多的时间。根据2024年1月的最新统计数据，ChatGPT目前拥有超过1.805亿月活跃用户，openai.com每月约有15亿次访问量。ChatGPT构建在GPT-3.5或GPT-4之上，它们都是OpenAI专有的一系列生成式预训练Transformer模型的成员，基于Transformer架构，并通过监督学习和强化学习的组合进行了对话应用的微调。

2024-05-06 20:53:39 946

原创生成一个好故事！StoryDiffusion:一致自注意力和语义运动预测器必不可少（南开&字节）

最近，扩散模型发展迅速，并展示了在内容生成方面的非凡潜力，如图像，3D目标和视频。通过广泛的预训练和先进的架构，扩散模型在生成高质量图像和视频方面表现优于先前基于生成对抗网络（GAN）的方法。然而，生成具有一致主题（例如，具有一致身份和服装的角色）的图像和视频来描述故事对现有模型仍然具有挑战性。常用的以图像为参考的IP-Adapter可以用于指导扩散过程以生成类似于它的图像。然而，由于强大的引导作用，对文本提示生成的内容的可控性降低了。

2024-05-06 20:52:15 784 1

原创一文详解视觉Transformer模型压缩和加速策略(量化/低秩近似/蒸馏/剪枝)

Transformer，由Vaswani等人引入，以其强大的数据建模能力、可伸缩性以及出色的捕捉长距离依赖性的能力，彻底改变了机器学习。起源于自然语言处理（NLP）领域，取得了机器翻译和文本摘要等方面的成功，Transformer现在将其实用性扩展到计算机视觉任务，如图像分类和目标检测。最近，它们的能力已经在多模态情感分析领域得到了利用，其中它们整合和解释多样的数据流——文字、视觉和声音——以评估情感反应。

2024-04-23 09:09:53 986

原创为Stable Diffusion模型瘦身并达到SOTA！LAPTOP-Diff：剪枝蒸馏新高度（OPPO）

文章链接：https://arxiv.org/pdf/2404.11098在AIGC时代，对低成本甚至设备端应用扩散模型的需求日益增加。在压缩Stable Diffusion模型（SDM）方面，提出了几种方法，其中大多数利用手工设计的层移除方法来获得更小的U-Net，同时利用知识蒸馏来恢复网络性能。然而，这种手工设计的层移除方式效率低下，缺乏可扩展性和泛化性，并且在重新训练阶段使用的特征蒸馏面临着不平衡问题，即一些数值显著的特征损失项在整个重新训练过程中占主导地位。

2024-04-23 09:06:16 809

原创图像生成/编辑应用落地必不可少！MuLAn：首个实例级RGBA分解数据集（华为诺亚）

大规模生成diffusion model 现在能够根据文本prompt词描述生成高质量的图像。这些模型通常在包含多种风格和内容的标注RGB图像的大型数据集上进行训练。虽然这些技术已经极大地推动了文本引导图像生成领域的发展，但图像外观和构成（例如局部图像属性、可计数性）的精确可控性仍然是一个挑战。Prompt指令经常缺乏精确性或被误解（例如计数错误、空间位置错误、概念混淆、未能添加或删除实例），因此需要复杂的prompt工程来获得期望的结果。

2024-04-15 08:58:17 636

原创完美提升Stable Diffusion生成质量和效率！UniFL:统一反馈学习框架（字节&中山）

扩散模型的出现将文本到图像（T2I）领域推向了前所未有的进步领域，其突出贡献如DALLE-3、Imagen、Midjourney等。特别是，开源图像生成模型的引入，如Stable Diffusion，开启了一个变革性的文本到图像时代，产生了许多下游应用，如T2I个性化、可控生成和文本生成视频（T2V）。尽管迄今为止取得了显著进展，但当前基于Stable Diffusion的图像生成模型仍存在一定的局限性。低质量：生成的图像通常质量较差，缺乏真实性。

2024-04-15 08:51:41 926

原创 CVPR`24 | FRESCO：高质量、连贯的Zero-shot视频转换新方案（北大&南洋理工）

在当今数字时代，短视频已经成为主要的娱乐形式。这些视频的编辑和艺术渲染具有相当重要的实际意义。最近扩散模型在图像编辑方面取得的进展已经通过自然语言提示使用户能够方便地操纵图像。尽管在图像领域取得了这些进展，视频处理仍然存在独特的挑战，特别是在确保自然运动和时间一致性方面。通过在大量视频数据集上训练视频模型或在单个视频上微调重构的图像模型可以学习到具有时间一致性的运动，然而这既不经济也不方便普通用户。

2024-03-28 09:01:45 777

原创腾讯放大招了！AniPortrait开源上线！音频驱动逼真人像动画合成！人人都是歌手！

从音频和静态图像中创建逼真而富有表现力的肖像动画具有各种应用，从虚拟现实和游戏到数字媒体都有涉及。然而，制作视觉上引人入胜且保持时间一致性的高质量动画是一个重大挑战。这种复杂性源于需要精细协调嘴唇运动面部表情和头部位置，以营造出视觉上引人入胜的效果。现有方法通常未能克服这一挑战，主要是因为它们依赖于用于视觉内容创建的容量有限的生成器，如GANs、NeRF或基于运动的解码器。这些网络展现出有限的泛化能力，并且在生成高质量内容方面经常缺乏稳定性。最近，扩散模型的出现促进了高质量图像的生成。

2024-03-28 08:59:25 1099

原创只需一步！One-Step图像转换来了！亲测效果惊艳！（卡内基梅隆&Adobe）

条件扩散模型使用户能够基于空间条件和文本提示生成图像，从而实现了对场景布局、用户草图和人体姿势等进行精确控制的各种图像合成应用。尽管这些模型取得了巨大成功，但它们面临两个主要挑战。首先，扩散模型的迭代性质使推理速度变慢，限制了实时应用，例如交互式 Sketch2Photo。其次，模型训练通常需要筛选大规模的配对数据集，对许多应用造成了重大成本，而对其他应用来说则不可行。本项工作介绍了一种适用于配对和无配对设置的one-step图像到图像翻译方法。

2024-03-25 20:00:34 1059

原创 FDGaussian:又快又好的三维重建方案 | Gaussian Splatting和扩散模型超强联合

单视图三维重建旨在从单个RGB图像中恢复对象的三维几何和外观。这项任务具有极其重要的意义，因为它使机器能够理解和与真实的三维世界进行交互，从而实现虚拟现实（VR）、增强现实（AR）和机器人技术等各种应用。在三维重建中面临的主要挑战之一是确保具有高质量和高效率的表示。显式表示（例如点云、体素和网格）由于其直观且形变友好的特性而被广泛使用，但往往难以表示真实的外观。近年来，隐式表示（例如神经辐射场（NeRF））由于这些方法的连续性有助于优化而取得了巨大成功。然而，渲染所需的随机采样耗时且可能产生噪声。

2024-03-25 19:58:07 1081

原创 CVPR`24 | 无需微调，超越SPAE！V2L-Tokenizer：图像描述/重建/去噪多项SOTA!

在自然语言处理（NLP）领域，通过部署大语言模型（LLMs），如GPT、PaLM和LLaMA，已经取得了显著的进步。为了解决需要结合文本和视觉理解的复杂挑战，学者们正在扩展现成LLMs的能力。这种增强涉及整合额外的视觉处理组件，以促进对视觉内容的理解或从文本生成图像。随后，这些改进的模型会使用各种多模态数据集进行额外的再训练或微调，以使视觉潜在空间与语言潜在空间对齐。然而，这种精炼过程通常需要大量的训练资源。如上图1所示，我们的目标是为大语言模型赋予理解视觉信号的内在能力，重要的是，无需微调。

2024-03-20 09:20:53 849

原创除了SD Web UI 或comfyUI，还有更简单的运行SDXL的方法吗？

想要从你的机器上生成令人惊叹的 AI 图像吗？你可能知道SD WebUI 或者 comfyUI，如果不想安装这些终端软件，又想快速体验，最快的方式是什么？本次以Stable Diffusion XL为例，它是当前最优秀的本地图像生成器之一，一起快速生成图片吧！：你需要一张良好的显卡。至少需要 4G 的 VRAM；如果有 8G 或更多则效果会更好。这里将在Linux系统上使用。如果你使用 WSL，那么在 Mac 或 Windows 上的操作步骤相同。

2024-03-18 08:46:42 739

原创 CVPR 2024 | DEADiff：稳定可控的文本到图像风格化扩散模型（中科大&字节）

最近，由于其惊人的性能，扩散模型在文本到图像生成领域引发了广泛的研究。由于扩散模型缺乏增强的可控性，如何稳定可靠地引导它们遵循由参考图像定义的预定风格变得棘手起来。综合考虑效果和效率，一种流行的风格转移方法是围绕额外编码器的方法。基于编码器的方法通常训练一个编码器，将参考图像编码为信息特征，然后将这些特征注入到扩散模型中作为其引导条件。需要注意的是，与需要多次迭代学习的基于优化的方法相比，基于编码器的方法非常高效，因为它只需要一次计算。

2024-03-18 08:44:52 771

原创提升77%，推理时间降一半 | CogView3:最新SOTA文生图方案（清华&智谱AI）

扩散模型已经成为当今文本到图像生成系统的主流框架。与自回归模型和生成对抗网络的范式相比，扩散模型将图像合成任务概念化为一个多步去噪过程，从各向同性高斯噪声开始。随着训练数据量和神经网络计算成本的激增，扩散模型的框架在视觉生成领域已经取得了有效性，能够遵循用户指令并生成具有令人赞赏细节的图像。当前最先进的文本到图像扩散模型大多在单一阶段操作，在高分辨率图像上进行扩散过程，如1024×1024。对高分辨率图像进行直接建模会加剧推理成本，因为每个去噪步骤都是在高分辨率空间上执行的。

2024-03-14 09:03:26 968

原创 LLM和自动驾驶强强联合 | DriveDreamer-2：自动驾驶定制视频生成世界模型!

近年来，自动驾驶的世界模型引起了行业和学术界的广泛关注。由于其出色的预测能力，自动驾驶世界模型有助于生成各种各样的驾驶视频，甚至包括长尾场景。生成的驾驶视频可以用于增强各种驾驶感知方法的训练，对自动驾驶的实际应用非常有益。自动驾驶中的世界建模面临着巨大的挑战，这是由于其固有的复杂性和大量的采样空间所致。早期的方法通过将世界建模纳入鸟瞰图(BEV)语义分割空间中来缓解这些问题。然而，这些方法主要是在模拟自动驾驶环境中探索世界模型。在自动驾驶技术的最新发展中，世界模型的发展取得了重大进展。

2024-03-14 09:02:36 819

原创超越DragGAN和DragDiffusion！StableDrag:基于点的图像编辑新框架(南大&腾讯) 原创 Yutao Cui等 AI生成未来

在过去的几年里，使用生成模型进行可控图像编辑已经取得了显著的成就，可以根据进一步的精细化目的定制生成结果。最近，开创性的DragGAN已经大大推动了准确的图像编辑，通过交互式基于点的操作，即根据用户输入的控制点驱动语义对象朝向相应的目标点。DragGAN提出了一种新颖的拖拽技术，主要包含运动监督和点跟踪，其中前者监督着控制点周围的局部补丁逐步朝向目标点移动，而后者负责在每个步骤中定位更新的控制点。尽管DragGAN取得了巨大的成功，但其编辑能力仍受制于生成对抗网络的固有模型容量和泛化性。

2024-03-11 09:03:14 951

原创超越α！PixArt家族新秀PixArt-Σ: 由弱到强训练的文本生成4K图像DiT（华为诺亚）

最近,高质量文本到图像（T2I）模型的出现深刻影响了人工智能生成内容（AIGC）社区。这包括专有模型，如DALL·E 3 、Midjourney ，以及开源模型，如Stable Diffusion 和PixArt-α。然而，开发顶级的T2I模型需要相当大的资源；例如，从头开始训练SD1.5需要约6000个A100 GPU 天，这给资源有限的个人研究人员造成了重大障碍，并阻碍了AIGC社区的创新。随着时间的推移，AIGC社区将获得持续更新、质量更高的数据集和更先进的算法。

2024-03-10 12:43:36 1278

原创百家争鸣！AI艺术生成器的进化: 深入AI生成艺术世界

人工智能（AI）已经彻底改变了艺术界，AI艺术生成器现在能够创作出独特而迷人的作品。然而，关于AI生成艺术与人类创作艺术的艺术价值的争论仍然在引起争议。社区对AI生成图像的原创性和所有权提出了关注，导致了法律纠纷和对版权侵权的质疑。尽管存在法律上的不确定性，但许多公司已经开发了自己的AI图像生成器，以避免此类问题。从基本的AI视频生成器到更先进的系统，AI生成艺术的领域是广阔而多样的。本文探讨了AI艺术生成器的演变，分析了它们的能力和局限性。

2024-03-10 12:38:28 864

原创视觉和GPT再碰火花！CVPR`24 | RegionGPT:面向复杂区域理解的VLM(港大&英伟达)

视觉语言模型（VLMs）在人工智能领域中标志着视觉和语言领域的显著融合。随着多模态大语言模型（MLLMs）的出现，该领域的能力得到了显著增强，可以解释图像并简化人类与VLMs之间的交互。然而，尽管这些模型在理解整个图像方面非常有效，但它们仍然在详细分析特定区域方面遇到困难。另一方面，对于先进的视觉任务，包括分析目标属性和解释目标间关系，精细的理解至关重要。在VLMs中解决区域级复杂理解问题需要空间信息和语义的对齐。

2024-03-08 08:46:54 815

原创 CVPR 2024 | CAMixerSR：2K/8K/轻量级/全景图像超分又快又强！（字节&南开）

近年来，神经网络的研究显著提高了图像超分辨率（SR）的质量。然而，现有方法在生成视觉上令人愉悦的高分辨率（HR）图像的同时，在现实世界的应用中遭遇了密集的计算负担，特别是对于2K-8K分辨率的输入。为了减轻这种开销，许多加速框架和轻量级网络被引入用于实际的超分辨率应用。然而，这些方法是完全独立的，缺乏协作。第一个策略，加速框架，基于这样一个观察：不同的图像区域需要不同的网络复杂性，这从变化的模型内容感知路线的角度解决了问题。

2024-03-07 09:01:54 1280

原创开源之光 Stable Diffusion 3 技术论文全解：公式占一半，实验很充分！

扩散模型通过噪声创建数据。它们被训练来反转数据向随机噪声的正向路径，因此，结合神经网络的近似和泛化性质，可以用来生成不在训练数据中但遵循训练数据分布的新数据点。这种生成建模技术已被证明在建模高维感知数据，如图像方面非常有效。近年来，扩散模型已成为从自然语言输入生成高分辨率图像和视频的事实标准方法，具有令人印象深刻的泛化能力。由于它们的迭代性质及相关的计算成本，以及推理期间的长时间采样，对这些模型进行更有效的训练和/或更快速的采样的研究已经增加。

2024-03-07 08:58:18 563

原创入门必读！多模态大语言模型的演变全回顾！（视觉定位、图像生成、编辑、理解）

注意力算子和Transformer架构的引入使得我们可以创建大规模的，能够处理各种模态的模型。这一进步主要归因于算子的多功能性和架构的适应性。最初，它们主要应用于语言模型，但很快就扩展到支持视觉处理骨干，并最终用于集成多种模态的模型。随着复杂的大语言模型的激增，尤其是它们在上下文学习方面的能力的进步，鼓励研究人员将这些模型的范围扩大到多种模态，既作为输入又作为输出。这种扩展促使了像GPT-4V和Gemini这样的尖端模型的开发，并展现了相当先进的能力。

2024-03-05 09:12:47 817

原创效果炸裂、刷爆各大视频网站的EMO到底是怎么做到的？

近年来，图像生成领域取得了显著进展，这在很大程度上归功于扩散模型的出现和成功。这些模型以它们生成高质量图像的能力而受到赞誉，这要归功于对大规模图像数据集的广泛训练和渐进式生成方法。这种创新方法使得创造具有无与伦比的细节和逼真度的图像成为可能，为生成模型领域设立了新的标杆。扩散模型的应用不仅仅局限于静态图像。对视频生成的兴趣日益增长，导致了探索这些模型在塑造动态和引人入胜的视觉叙事方面的潜力。这些开创性的努力强调了扩散模型在视频生成领域的巨大潜力。

2024-03-04 09:16:27 934

原创图像生成地表最强！Playground v2.5技术报告解读重磅来袭！超越SD、DALL·E 3和 Midjourney

自从通过ImageNet取得更好的图像建模性能以来，基于扩散的生成模型已经取得了巨大进展，与先前主导的生成对抗网络（GAN）框架相比，性能有所提高。开源模型如SDXL在潜在扩散模型（LDM）的基础上进行了扩展，通过扩大文本到图像的预训练数据集和潜在UNet架构来实现。另一方面，PixArt-alpha探索了扩散Transformer（DiT）作为潜在骨干，表现出更好的训练效率和图像质量。Playground v2是最近开发的一个开源模型，专注于训练配方和美学质量，与SDXL相比，实现了2.5倍的用户偏好。

2024-03-01 08:58:29 1186

原创 Gen4Gen：数据驱动多概念个性化图像生成新方法（马毅教授团队新作）

从逼真的肖像到幻想生物的绘画，过去一年见证了文本到图像扩散模型能力的显著飞跃。一些最近的工作集中在这些生成模型的“个性化”上，即通过向预训练的文本到图像扩散模型增加一组最小的用户提供的概念图像（例如，他们的宠物或最近购买的盆栽），以生成新的场景，这些场景包含这些个人概念（例如，他们的宠物在时代广场的夜景中，如下图1所示）。该领域的重要工作 [1, 17, 19, 24, 35] 是重要的里程碑，因为它们增加了用户对生成过程的控制，带来了各种定制应用。

2024-02-29 09:18:04 596

原创一文详解3D内容生成算法（朴素/2D先验/混合型）

生成模型在自然语言处理（NLP）和图像生成领域取得了巨大的成功。最近的发展，如ChatGPT和Midjourney，已经彻底改变了许多学术和工业领域。例如，AI写作和设计助手显著缩短了论文写作和图像设计的时间。在3D领域，随着3D数据量的增加以及其他领域生成技术的成功，3D生成技术也取得了重大进步。由于其广泛的应用，3D内容生成的研究越来越受到关注。游戏和娱乐设计。比如角色和物品，需要多视角概念设计、3D模型创建和3D模型优化。这个过程劳动密集且耗时。3D内容生成技术将大大减少时间和人力成本。建筑领域。

2024-02-28 13:23:09 1354

原创文本生成图像新SOTA！RealCompo：逼真和构图的动态平衡（清北最新）

最近，扩散模型取得了令人振奋的发展和显著进步。在各种生成任务中，文本到图像（T2I）生成在社区内引起了相当大的兴趣。由于在大规模图像-文本配对数据集上进行了广泛的训练，T2I模型（例如，Stable Diffusion）展现出强大的语义理解能力，使它们能够基于语义信息生成高度逼真的对象。然而，当输入文本涉及多个对象或复杂关系时，T2I模型生成的图像有时不会与文本提示指定的对象的组合性对齐。下图2展示了来自不同方面的Stable Diffusion的评估结果，未能生成正确数量的对象，缺乏良好的组合性。

2024-02-27 08:02:05 476

空空如也

空空如也