京东张政：内容理解在广告场景下的实践和探索

本文链接：https://blog.csdn.net/DataFun_Hoh/article/details/125338692

本文分享了京东广告业务中内容理解体系的构建，包括内容标签化、素材准入、质量和美学评价。智能内容生成涉及视频摘要、图片创意和文案生成，通过多模态优选模型实现个性化匹配，提升点击率。内容理解体系借助OCR、图像识别等技术，以应对内容生态的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分享嘉宾：张政京东算法工程师

编辑整理：AMS 周金星

出品平台：DataFunTalk

导读： 内容生态建设是近几年互联网快速发展的关键动因，也是AI化的重点方向之一。本文主要分享在京东广告业务下内容理解体系的建设情况，从标签化、内容准入、质量美学评价等多个角度探讨内容理解能力的应用；同时整体介绍智能创意助力广告内容生态建设，从内容理解到内容生成（视频、图片、文案），再到内容分发，并穿插OCR、智能抠图、多模态等相关的基础前沿算法能力。

本文将围绕以下几部分进行展开：

背景介绍
内容理解体系
智能内容生成
创意优选&分发
业务落地

file

01 背景介绍&问题定义

file

为什么要做智能创意？由图可见，从04年开始内容化生态逐步崛起，带动了互联网的新一波发展，特别是短视频，涌现出了如抖音、快手等一系列新媒体，目前已拥有大量受众。另外，像京东、阿里这类电商平台也在做内容化，直播、视频、互动等新玩法，加速了内容化的能力建设。因此总结两点：

流量的内容化成就了互联网的增量
内容的电商化开始引领主流趋势

针对庞杂的信息，如何更好地理解并推荐给用户，是智能创意要解决的问题。同时在内容化建设的大背景下，平台方也承担了广告内容生态建设的关键职责。

对智能创意的定义是：通过AI对商品内容进行理解，在感知学习的基础上构建规划和推理能力，基于实时的生成引擎和素材挖掘来构建视频、图片、文案的创意，并通过创意优选来实现精准的用户匹配。可以简单归纳为三个阶段：内容的理解、生成和分发。

file

上图呈现了智能创意的全过程，也是本次分享内容的主要框架：

1. 内容理解

最左边是商品信息，京东站内拥有数以亿计的商品，每个商品的内容信息包括了标题、主图、商品详情图、用户评论等。基于这些数据，可以做很多事情，比如借助NLP，可以通过标题压缩来生成短标题或者新标题，通过主颜色识别或者商品识别来建立图片内容的标签，从而判断图片是否足够优质，是否适合作为广告露出。

2. 创意生成

借助CV能力，可以通过布局理解或素材挖掘，对商品详情图进行结构化的分析，借助智能裁剪生成新图片来更突出商品的主体或者卖点等。借助视频分析，可以通过人的检测或行为识别，对视频里的优质片段或精彩点进行摘要，再提取更优质的内容让用户更容易get到商品卖点。在这些基础上，构建的就是内容的标签化，在内容标签化构建完成后可以借助智能搭配能力来进行创意生成。

3. 创意分发

创意内容存在多样性，如何更好地体现卖点，就要借助创意优选，创意优选是一个内容的分发阶段，分发阶段需要解决的问题是如何基于优选模型来实现生成内容和用户的个性化匹配，后文会讲到多模态算法的应用。在京东的电商体系下，内容是一个天然的多模态场景，它包含文字、视频、图像、语音等各种多模态数据，如何对这些数据进行更好地融合和表征，是做好内容分发的关键点。

02 内容理解体系

1. 内容理解体系概览

file

为什么要构建内容体系？作为智能创意的第一步，它用于实现基础算法的标签化，从素材标签到素材准入，再到素材优选，都可以提供关键的能力支撑。内容体系分为三个部分：

第一部分是基础算法以及内容标签化，底层用到了大量的基础算法；
第二部分是素材准入，是指通过审核解决数据筛选和过滤问题；
第三部分是质量和美学的评价，即如何去从众多内容中筛选优质的素材或者创意。

2. 内容标签化

file

如上图，先通过场景分类或者语义分割提取图片的背景，是天空还是草地。同时，借助商品检测去检测里面的人，或者他背的包，借助商品分割，可以精确地分割商品的边缘。有了边缘信息后，对商品的细节特征进行分析，比如得到商品属性：黑色的女包。商品属性可以用于后续的商品检索，通过找到类似的商品进行内容的召回和推荐。关于商品标题，可以从标题去做基础解析，比如抽取产品词、属性词、修饰词等。

对于整个图片，能通过美学的质量评价给图片打分，比如画面是否足够清晰，亮度是否正常等，以及基于logo检测，检测图片上有没有商品logo等。

算法角度，对于图片，有大量图像算法可以去做分析，但因为内容理解本身会受限于基础算法的准确度，在实际业务上可能会面临非常大的挑战。比如我们基于MS COCO的数据集，在做检测的时候AP0.5只能做到78%，同样每个底层算法都会面临准确度的问题。在电商场景下，因为商品类型更具有多样性，所以面临的挑战会更大。

庞大的商品体系会导致面临商品类别的多样、类别相似、内间样本不均衡等问题。同时和自然场景不一样，电商场景因为存在大量的handmade，比如图片上加的牛皮癣等。为了解决这些问题，我们前期进行了大量的数据集标注、数据集的仿真和增强，同时也构建了一套底层的基础算法服务，可以保障整体的服务效率，对模型进行了轻量化的TensorRT加速等等工作。最终形成了一套基础的商品结构化的素材库， cover了亿级别的SKU，通过对这些商品内容进行结构化的提取，应用于各业务线。

file