上下文驱动的图上文案生成

阿里妈妈技术

于 2023-02-01 19:00:43 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/alimama_Tech/article/details/128843006

版权

✍🏻 本文作者：持信、弈臻、悟放、积流、孟诸

1. 摘要

为商品图片上特定位置配上装饰性文案来突出重点在广告业务中有着十分广泛的应用前景。然而，现有的图片文案描述生成系统均生成与图片位置关系无关的文案，无法很好地应用到广告业务中。在本文中我们提出了一种新的文案生成任务——图上文案生成，并基于商品图片数据提出了一个大规模图上文案数据集CapOnImage2M。为了更好的利用上下文以及商品本身的信息来生成更适合特定位置的文案，我们提出了一种基于上下文的多模态图上文案模型，并设计了几种针对位置关系的预训练任务来帮助模型更好的理解位置信息。目前，使用该工作针对业务数据训练的模型，已经应用在淘宝首页焦点位、首页猜你喜欢信息流等广告业务中，并取得了显著的业务收益。该项工作论文已发表在EMNLP 2022，欢迎阅读交流。

论文：CapOnImage: Context-driven Dense Captioning on Image

下载（点击↓阅读原文）：https://arxiv.org/abs/2204.12974

2.背景

广告主通常会给商品图片配上特定的装饰性文案以突出重点，提升商品的吸引力和信息量，这些文案通常包括产品名、产品介绍、卖点、点击引导、利益点等类型。然而为图片设计合适的图上文案通常需要雇佣专业写手和设计师来完成，成本较高且相对低效。传统的图文创意是基于预设模板的方式，依赖设计师的模板去填充对应的文案，模板的多样性往往不足以匹配图片的多样性，导致模板的适配性不足，同时受限于模板的固定范式，要求我们具有明确指定各种文案类型和特定字数的文案生成能力，不够灵活且适配成本较高。

为此，我们希望提出一种自动化的图文创作方式，在本文中我们提出了图上文案生成，一种新的文案生成任务，利用多模态的文案生成技术，综合考虑图片本身信息（如商品主体、商品主体位置和背景色）、商品文本信息、文本框位置layout以及多个框之间的相对位置关系等信息自适应地生成合适的文案。其中文本框位置可以通过其他手段获取，比如OCR工具或者layout模型生成等。

最低0.47元/天解锁文章