▐ 项目背景
移动互联网时代出于隐私保护和数据安全,APP 之间的开放与互联越来越少,使大量的信息孤岛逐渐形成,限制了信息技术更好地服务广大用户的能力。2016年 Google 提出了以保护终端隐私为前提的机器学习方法——联邦学习[1]。为了将联邦学习理论更好地引入到阿里妈妈业务场景,发挥其隐私保护和算法理论的优势,阿里妈妈算法工程团队 与 阿里妈妈大外投广告算法团队 于近期开源了 Elastic-Federated-Learning-Solution(弹性联邦学习解决方案,以下简称 EFLS)项目。该项目经过阿里妈妈外投广告业务与业界多个合作方深入大规模实践,旨在沉淀归纳出联邦学习场景下通用的解决方案及算法实践经验,希望未来可以对搜推广业务在大规模稀疏场景下的联邦学习应用产生参考价值和加速作用。
本文将对 EFLS 项目的业务价值、核心功能以及关键实现做简要介绍,希望给从事相关工作的同学带来一点启发和帮助,欢迎试用及交流讨论。
GitHub地址:
https://github.com/alibaba/Elastic-Federated-Learning-Solution
▐ 业务应用
业务背景
目前联邦学习技术已经在金融领域大规模应用,在广告搜索推荐这种大规模稀疏场景领域的应用和研究尚处于发展初期。作为 EFLS 的诞生地,阿里妈妈大外投业务具有如下特点:
伴随着外部媒体短视频流量异军突起,商家有从媒体引流电商的需求,而商家在媒体直投存在后链路效果分析成本高、无法同时在多个媒体投放的问题。阿里妈妈大外投能够建立统一的外投能力,服务商家一键投放多个媒体,同时在商家营销服务上可以提供强大的营销效果分析能力解决商家在外部媒体投放的痛点。
不同于淘内广告建模中我们能获取丰富的前链路行为,我们在外投广告中对用户在媒体端的前链路行为一无所知。由于企业数据互为商业机密,媒体不能共享用户的内容偏好,而我们也不能透出用户的电商偏好,外投广告系统无法像内投场景能够形成数据闭环进行全链路优化。
为了更好的服务商家,媒体和阿里妈妈都有通过个性化建模提升商家roi的效果优化诉求,伴随着越来越强的隐私监管,双方的合作必须在更加合规的隐私保护的前提下进行。
应用方案

如上图所示(图中术语释义请见附录2),阿里妈妈大外投业务的在线广告投放阶段,媒体方和电商方会在双方严格保护其各自用户隐私的前提下,基于联邦学习训练的点击转化率预估模型和ocpx机制为用户推荐感兴趣的广告,以保证用户体验和商家的广告投放效果。用户根据兴趣点击后,将跳转到电商平台,电商侧会存有商品特征、用户历史特征以及本次点击收藏加购成交等信息。由于隐私数据不能泄漏,从媒体方的广告推荐到电商方的收藏加购整个过程将被使用 instance_id 进行标识。在离线训练阶段,媒体方与电商方将先通过在线模型产生的 log 结合 instance_id、加密设备id、广告id 等生成样本数据,随后双方将采用样本集合求交,通过加密传递instance_id等标签的方式,将样本数据对齐。样本数据对齐后,媒体方与电商方将采用对齐的样本数据,同时进行模型训练。在训练过程中,有 label 的电商一方作为主导方,协同方媒体方会将一个训练的中间结果经过隐私加密之后发送给主导方,主导方在计算反向的梯度之后,将协同方发送来的中间结果对应的梯度经过加密后发送给协同方,完成训练迭代。从而实现在不共享隐私数据的情况下,同时进行媒体方与电商方的模型训练。
业务价值
依托于 EFLS,阿里妈妈 Unidesk 产品已助力珀莱雅、卡姿兰、薇诺娜、花西子、修正等多个企业实现品牌和业务双丰收。其中一些合作品牌在2个月时间内获得品牌 ROI 15% 的提升,经营效果提升明显,且放量也在逐步提高。
EFLS 希望能够为隐私计算领域贡献一份力量