相似受众定向简称Lookalike,由于新客户与现有客户具有类似特征,对扩展人群投放广告能有效帮助广告主拓展业务和发掘新客户
发展:矩阵分解方法和基于社交关系链-----基于 LR 的方法,离线训练模型,离线扩展-----基于 Embedding 的方法
--参考腾讯广告分享
Offline Lookalike Pipeline
对每个号码包独立训练一个排序模型,将得到的相似用户上传到 CKV ,用于线上定向检索。
离线扩展号码包得到如下形式: bag1 => user1, user3, …
这些号码包上传到 CKV 后,以倒排表形式存储 user1 => bag1, bag2, bag3, … user3 => bag5, bag1, bag6, …
随着使用 Lookalike 功能的广告主越来越多,系统中的号码包数量也越来越多;导致 CKV 中的 value(号码包列表越来越来),线性增长, Offline Lookalike 只能支持千级别号码包同时在线
online Lookalike 框架
核心思想 :将user和种子包向量化,称为embedding User和种子包的向量相似度(点积)越大,越相似
优点 :解放了 CKV: 只存储user embedding 在线相似度计算,使实时扩展成为可能
离线架构
全量训练
线上检索过程