1.摘要
用户在手机淘宝可以借助图像进行商品检索。图像具备更丰富的信息量和表达能力,因此对于部分语言难以描述的搜索意图,用户可以借助图像实现更准确地搜索。然而,由于视觉内容的复杂性和多样性,准确地进行图像理解和商品检索是一项极具挑战的课题。“力精图智”项目是搜索广告算法团队致力于将图像语义信息更加有效地运用到精排预估模型中。本文将为大家介绍我们如何在图像理解上打破样本选择偏差,并提高精排点击率预估效果。
预估模型使用的预训练图像表征模型往往是使用类别标签作为监督信号的图像分类模型,或是基于用户行为数据训练得到的对比学习模型,这两类表征分别存在表征粒度粗和样本选择偏差(Sample Selection Bias)的问题,制约了下游点击率预估任务在完整商品空间上的排序能力。针对上述问题,我们提出一种面向预估任务的图像表征学习框架,该框架共分为预训练-微调-除偏三个阶段。具体的,我们在第一阶段和第二阶段对图像编码器进行预训练和微调,目的是通过第一阶段的自监督对比学习预训练缓解表征偏差。此外,我们在预估模型中嵌入表征除偏网络,通过除偏网络过滤微调阶段可能引入的样本选择偏差。大量实验和分析表明,本文提出的图像表征学习框架可以提高预估结果的准确性和公平性。
2.背景
图像商品检索系统旨在根据用户搜索的图像找到同款商品。由于用户输入的搜索图像直接反映其搜索意图,因此图像理解在系统中发挥着重要的作用。对于点击率预估任务,一方面,准确的图像语义表示能为预估模型提供清晰的用户搜索意图和商品信息,从而做出精准的预测;另一方面,语义信息的引入可以缓解ID类特征带来的冷启动问题,为模型带来更好的泛化性能。
当前图搜点击率预估系统中使用的图像语义表征模型主要分为两类,一类是将类别标签作为监督信号训练得到的,其缺点在于表征粒度较粗,无法感知类内的细粒度风格差异;另一类主流方法基于用户反馈行为构造训练数据并得到细粒度表征。然而,仅使用图搜场景的用户行为数据训练和评价模型会造成样本选择偏差和数据循环,导致模型对长尾商品的图像理解能力较差,给模型的公平性和泛化性带来挑战。如图1(b)的第二个结果所示,仅使用用户行为数据训练的表征模型会偏向于热门但实际上相关性差的商品。
综上,为了打破图像理解上的样本选择偏差并提高下游点击率预估任务的效果,本文提出一种基于对比学习的图像表征学习框架,该框架能够学习细粒度图像表征并且缓解训练数据带来的样本选择偏差。我们提出了一种预训练-微调-除偏的三阶段训练框架,通过第一阶段的自监督对比学习预训练、第二阶段的有监督微调和第三阶段的除偏网络优化细粒度图像表征的无偏性。本文的主要研究成果如下:
(1)首次以图像语义表示学习为切入点探讨和研究了搜索/推荐/广告系统中普遍存在的样本选择偏差问题和“准确性-多样性”困境;
(2)面向点击率预估任务提出了一种基于对比学习的图像表征学习框架,帮助下游实现准确且无偏的点击率预估;
(3&