基于扩散模型的3D智能创作引擎与内容投放算法最新实践

阿里巴巴淘系技术团队官网博客

于 2023-03-13 17:20:59 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/Taobaojishu/article/details/129512091

版权

3D模型在智能设计领域以其可塑性，可编辑性有着属于自己的独特优势，扩展了2D设计的上限。但是其目前存在的局限性也是显而易见的：建模的效率，模型的数量，以及3D设计的成本。

背景

在商品展示侧，围绕人-货-场的商品展示重要性不言而喻，需要为每个消费者搭建最感兴趣的货-场匹配。尤其以3D，VR等新内容形态的发展，使得货-场的展示除了传统的图文，短视频展示方式之外，开始逐渐出现围绕3D模型的货场匹配内容创作形态。

一方面，站在用户的角度，除了基础商品信息之外，越来越多其他的信息会被纳入最终购买决策中，例如在购买大件家具的时候，用户会考虑家具的颜色和款式和家中的硬装是否搭配，功能性以及舒适性是否满足家人使用。

另一方面，站在卖家角度，也开始发现3D模型内容创作的提效作用：例如在手机行业，越来越多的手机厂商愿意投入资金使用3D模型进行短视频的制作，且为不同颜色的sku配置不同颜色的动态背景。基于3D模型的内容创作能进一步提升用户的体验，在一定程度上提升转化效率。因此本文将围绕3D内容创作上层应用的三块核心步骤展开：

创作：基于商品的3D模型/2D图片/文本的内容创作，解决素材创作内容多样性及效率需求问题。
投放：初步以商品头图，短视频的形式落地在实际的应用场景中，构建内容投放链路进行效率层面优化。
优化：同时基于线上流量反馈，通过拆解设计元素的原子化能力，指导创作更优质的3D内容。

这里把过程中的经验和成果分享给大家，欢迎感兴趣的同学和业务方进行交流和探讨。

素材创作

▐ 业务方案现状

基于现有链路，目前在商品图和商品短视频创作的过程中存在以下瓶颈：

高质量素材需求量大：对于素材的数量，质量，和可控性都有非常高的要求。
新内容形态数据缺失：尤其以3D，AR，VR的全新内容形态，极度缺乏历史先验数据。
容易出现的版权纠纷：另一方面直接使用网络中的素材图会有较大的可能的版权问题。
专业人士制作成本高：需要花费极高的制作成本请专人进行内容制作。

因此我们针对3D相关内容资产的创作瓶颈进行优化。

▐ 目前支持能力

首先，在素材创作层面目前已经能支持包括创意背景制作（txt2img），风格化AI(AI作画)，内容补全（inpainting）等。我们将围绕效率提升和用户体验两个方面出发，分别讲解目前已具备的能力：

从效率层面进行考量：在进行商品头图或商品短视频制作时，与商品搭配的背景视频尤为重要。针对目前不同主色，不同配置的商品型号，我们有针对性的进行背景的生产，因此建设创意背景制作（txt2img）能力，用于生产对应商品的专属背景。

而从用户体验出发：目前AI作画风靡全国，让很多没有绘画经验，但是愿意进行二次创作的消费者，体验自己的二次元/油画/板画风格的作品。目前在抖音/贴吧/知乎/bilibili 都有相应的AI创作专区，日活超千万。因此我们着重展示以上两种能力：

创意背景制作（txt2img）

为了构建多样性的短视频背景，从而实现更高效率的内容展现，我们首先进行创意背景制作相关能力的构建。可以实现多种多样化的内容生产，实现可编辑，可自由创作，不受关键词约束，例如输入“星空背景”：

星空背景的应用在手机详情页展示case1：

风格化内容创作（img2img）

围绕有趣的用户体验，我们分别给出了人像照片/商品照片的风格化效果：

商品图/详情图风格化：

▐ 算法模型背景&优化

扩散模型原理部分

在介绍算法背景之前，首先介绍一些原理层面的知识。对于扩散模型原理感兴趣的同学可以参看个人的相关解读：

《Diffusion Model （扩散模型）系列一（DDPM）Denoising diffusion probalistic models》
《Diffusion Model （扩散模型）系列二：(DDIM) denoising diffusion implicit models》。

算法背景

首先在DDPM中，证明了当每一步添加的高斯噪声的均值和方差都足够小时，其逆向步骤同样能够满足高斯分布，这是扩散模型搭建和应用的理论基础。而这样带来的问题在于，大量小幅度变化的高斯噪声叠加带来了大量的计算量。因此很多研究者把目光放在了减少逆向分布采样步骤量的方向上。

而DDIM的核心优化点，就是在保证DDPM中的逆向步骤为高斯分布的条件下，构造了满足逆向步骤的迭代公式，从而大幅度减少了模型的训练，推理的计算量。

回到应用层面。以目前前沿的扩散模型相关的生成模型为例，更多的在下游任务中进行领域级别的优化：无论是Dalle-2系列，还是基于有效针对隐式特征空间进行压缩和扩散模型建模的Stable-Diffusion ，对于扩散模型的采样及运算优化涉及不多。更多的注重在特征的前/后处理以及生成模型上。而此类做法很容易导致最终运算效率受到扩散模型采样还原的效率影响。Stable-Diffusion巧妙的做法在于，将特征空间映射到低维进行操作，在建模进行特征的还原以及图像的生成，因此避开了计算量的问题。

优化思路

而在本模型中，我们希望直面挑战，从扩散模型采样效率出发，将扩散模型所需的采样频率进一步下降，且保证生成效率基本持平甚至有所提升。这样可以直接在高维特征上进行模型优化，也为后续的优化建立了足够的空间。

从前述背景中我们可以知道，DDIM的核心优化点，就是针对DDPM的微小变化马尔可夫链采样函数优化，构建了一种同样能满足逆向传播条件的采样方程式，极大减少了采样需求量：

而如何想到是用这个公式进行逆向采样拟合呢？原文并没有给出答案，而使用了数学归纳法，验证了该式为逆向马尔可夫分布的充分条件，更多的给人一种灵光一闪的感觉。因此我们从这里入手，针对DDIM的采样方式进行进一步的优化。通过构建针对积分的离散近似表达，来实现基于DDIM的2阶段优化，首先我们给出一阶解析解的积分形式：

我们针对其积分形式进行泰勒展开，在展开的部分中我们可以使用泰勒展开的一阶/二阶展开近似积分的拟合形式，可以讲DDPM的采样需求量进一步简化。我们基于其二阶展开进行进一步优化，可以将DDIM的采样需求量进一步缩小。由于目前在准备相关论文及专利，详细推导公式在后续专栏中给出。

实验效果对比

测试生成图（为了看效果尽量进行放大），前图为对比case，后图为优化后 case：

内容投放

▐ 背景

在完成构建内容创作的能力之后，我们需要有一套完整的线上投放机制，以保证线上内容展示效率。此时我们遇到的第一个难点就是：

缺少2-3D的特征体系和对比损失的统一性，即3D内容和商家制作2D内容的对比。因此我们首先有针对性的构建了维度统一的特征体系，同时为以下工作提供了基础能力：

1.冷启动模型和流控模型的构建。首先保证线上投放链路的正收益。

2.设计理解和优化设计能力。其次我们也希望利用线上的反馈数据，基于以上的特征体系对我们的设计能力进行优化。

这边额外提一些设计理解部分的能力的构建的思考和理解。在我们常规的理解中，在完成内容创作-冷启动-流控放大-过期下线 四个部分后，一整套的内容创作流程已经完成了，从平台侧出发，也已经实现了效率最大的优化。那么我们为什么仍然需要解构设计特征，给出设计元素级别的理解呢？

从平台层面：尽管以上链路已经完成了最优质的迭代，但是我们忽略了两个问题：1.冷启动流量测试中的劣质内容损耗。2.流控放大步骤中更优质内容的沉没成本。通过设计理解，进一步提升内容质量效率，能提升表达上限。

从商家/设计师层面：从商家工具的层面入手，商家也希望能够从历史数据中，提供指导商品主图及短视频的的建议，提升商品点击转化相关指标。

下面我们详细展开：

▐ 3D内容和非3D内容特征体系/对比损失的统一性问题和解决

由于在部分场景中，需要和商家制作的2D主图的线上效率进行对比，而如果仅仅使用图像提取embedding，构建pairwise损失函数，一方面表达能力有限，另一方面，只使用图像embedding的黑盒模式无法对后续的设计起到优化和指导的作用。因此我们针对此问题，搭建了包括2D的机位特征获取，位姿特征获取模块在内的2/3D统一特征体系：

▐ 完善的多级流量放大框架的搭建

和开发同学共建多级测试-投放的多级放大流量控制体系，针对投放过程中的新内容投放任务，我们构建了完善的测试-投放链路，保证了复用性能。

内容冷启动

在内容冷启动链路中，我们基于前述构建的完备的统一特征体系，引入多层Attention模块，针对多模态特征进行高效的融合和处理，结合对比数据-如商家制作的商品主图，构建了Pairwise损失函数，完成价值预估模型的构建，在进行冷启动内容投放时，优先选择高预估分的内容进行测投。

完善内容流量调控

针对通过步骤1.内容冷启动的，将符合条件的商品送入多级放大流量模块中，将其30日/14日/7日/3日/1日内的特征及效率表现作为输入，构建PID模型进行流量调优。

▐ 设计可解释性&设计优化

在完成线上多级放大链路的搭建之后，我们不仅可以进行整体效率维度的优化，对于具体的设计，结合前述构建的2/3D全面统一的特征体系，也可以尝试构建元素维度对于点击效率的影响，即设计可解释性。举例而言，当我们想使用Diffusion Model 进行带约束的内容创作时，需要加上特殊的关键词（prompt），以调整最终的生成创意内容。当我们掌握了设计元素维度对于点击率的影响之后，我们可以通过线上数据反馈进行关键词优化：例如“红色衣服适合白色主色调的氛围”，“灰绿色沙发放在简约风格的样板间中进行展示较合适”。

因此在设计可解释性层面，我们使用Shaply Value作为特征重要性标准，而针对Shaply Value存在的缺陷：在多维度交叉特征上的准确性及计算量问题，将采样进行进一步简化。采样方式参考《Polynomial calculation of the Shapley value based on sampling》，这边给出采样的伪代码：

展示case：

以二维特征交叉为例，在灰色系的商品（训练数据为家具模型）背景创作/匹配时，可以加入蓝色背景相关关键字进行生成，而不适合放在纯白的背景中。

写在最后的“以终为始”

我个人比较推崇的一种思考方式是“以终为始”：将理想中的目标作为起点，反推实现最终目标中所需要的必经之路。当我们想要实现3D相关应用所带来的高效，高质量内容创作，甚至改变整个生态的最终目标前：高质量且多样的的内容创作能力，以及高效的线上测/投链路是必不可少的，也即围绕本文开头部分的框架进行展开。

未来我们将围绕3D内容的效率和体验两方面内容，基于现有的经验进一步进行内容创作，进一步扩展3D内容创作的边界。

团队介绍

大淘宝技术Meta团队，目前负责面向消费场景的3D/XR基础技术建设和创新应用探索，创造以手机及XR 新设备为载体的消费购物新体验。团队在端智能、端云协同、商品三维重建、3D引擎、XR引擎等方面有着深厚的技术积累，先后发布深度学习引擎MNN、端侧实时视觉算法库PixelAI、商品三维重建工具Object Drawer、端云协同系统Walle等。团队在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等顶级学术会议和期刊上发表多篇论文。欢迎视觉算法、3D/XR引擎、深度学习引擎研发、终端研发等领域的优秀人才加入，共同走进3D数字新时代。简历请投递至: chengfei.lcf@alibaba-inc.com

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法