在上一篇文章《广告粗排技术(一)》中,我们首先介绍了广告链路概览,随后重点介绍了粗排模块。在粗排模块中又重点介绍了LiteCXR模型及其行业化优化方式。今天我们开启这个系列的第二篇。
LiteCXR模型常用特征
(1)广告基础特征:广告主id、广告计划id、广告创意id
(2)用户基础特征:年龄、性别、城市等级、受教育程度
(3)用户行为相关的统计特征:用户点击广告创意id序列、用户点击广告主id序列
(4)创意特征及对应前文统计特征:创意图片类型、创意标题分词等
LiteCXR模型的目标
(1)从召回集合中挑选出最优的广告List, List本身可以无序
(2)最优的标准与精排对齐
粗排一致性优化
(1)背景
造成不一致的根本原因是漏斗的存在,最极端的解决方式是每次请求,都用整个广告库过一遍精排模型,但是这样势必性能无法达到要求,于是我们的广告系统通常都会多次截断形成漏斗。而每一次的截断都有可能造成误杀(精排截断的不完善以及当前截断和精排的不一致性)。
(2)模型一致性
粗排精排模型的不一致性往往是由特征差异所带来的,粗排与精排通常都是独立升级和优化的,常年累积之后特征差异往往很大。同时,受限于性能瓶颈,通常粗排使用的特征相对于精排是偏少的。
(3)在算力支持的情况下,把漏斗做平
业内通常采用近线计算的方式将漏斗拉平。一般包括请求旁路模块、近线召回模块以及种子人群模块。
请求旁路:近线计算系统在用户第一次到访的时候,召回会将召回候选广告队列旁路出来;离线近线计算模块会将旁路出来的超大广告队列在算力平台上进行精排模型预估,按照精排预估的ECPM序列取TopN缓存起来。
近线召回:用户后续到访的时候,新增一路近线召回,召回的结果为精排ECPM的TopN;召回阶段通过多样性排序策略框架,不走粗排环节的模型预测以及过滤截断逻辑,直接将离线精排ECPM的TopN保送到精排服务。
种子人群:对召回广告候选队列进行精排预估,对算力要求极大,所以一般系统中都会引入种子人群模块,即在近线相对有限的算力下,只对相应流量的种子人群进行近线环境的精排模型预估。
本文主要介绍了粗排模型的特征、优化目标以及与精排模型的一致性。
欢迎大家关注微信公众号:计算广告那些事儿,除了原创文章之外,也会不定期和大家分享业内大牛的文章哈!