阿里妈妈技术团队3篇论文入选 NeurIPS 2022

近日,第36届神经信息处理系统大会(Neural Information Processing Systems,NeurIPS 2022 )论文接收结果公布,阿里妈妈技术团队有3篇论文被录用。

NeurIPS 是中国计算机学会(CCF)推荐的A类国际学术会议,由 NeurIPS 基金会主办,是机器学习和计算神经科学领域的顶级国际会议,今年将于11 月 28 日至 12 月 9 日举行。

阿里妈妈论文概述

接下来为大家介绍阿里妈妈技术团队入选论文,后续我们将邀请论文作者详细解析论文思路和技术成果,欢迎关注~

▐ APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction
APG: 面向CTR预估的自适应参数生成网络

下载:https://arxiv.org/abs/2203.16218

摘要:目前基于深度学习的CTR预估模型(即 Deep CTR Models)被广泛的应用于各个应用中。传统的 Deep CTR Models 的学习模式是相对静态的,即所有的样本共享相同的网络参数。然而,由于不同样本的特征分布不尽相同,这样一种静态方式很难刻画出不同样本的特性,从而限制了模型的表达能力,导致次优解。在本文中,我们提出了一个高效率、高效果的通用模块,称为自适应参数生成网络(APG)。其可以基于不同的样本,动态的为CTR模型生成不同的模型参数。大量的实验表明,APG 能够被应用于各种 CTR 模型,并且显著的提升模型效果,同时能节省38.7%的时间开销和96.6%的存储。APG 已在阿里巴巴搜索广告系统部署上线,并获得3%的点击率增长和1%的广告收入增长。

▐ GBA: A Tuning-free Approach to Switch between Synchronous and Asynchronous Training for Recommendation Models
GBA:推荐模型无需超参数调节的同步训练和异步训练双向切换方案

下载:https://arxiv.org/abs/2205.11048

摘要:目前推荐模型训练有两种最常用的分布式模式,基于参数服务器 (PS) 的高并发训练架构和基于 All-Reduce (AR) 的高性能训练架构。尽管基于 AR 的高性能训练模式速度更快,但是其需要同步模式;在资源紧张的混部共享集群出现慢节点时,反而 PS 架构的异步训练模式是一种更好的选择。基于集群资源状态进行两种训练模式的自由切换,是可以将集群资源充分利用起来的理想方案。然而,切换训练模式通常需要调整超参数来保证模型训练效果,这是非常消耗时间和消耗训练资源的。我们发现对于无需调参的方案,有两个主要的阻碍因素:模型训练过程中不同训练模式会有不同的梯度分布,以及异步模式会因为慢结点导致的过期梯度。本文提出了基于 PS 架构的全局批数量梯度聚合 Global Batch gradients Aggregation (GBA) 方案 ,可以通过梯度聚合的方式获得和同步训练相同的全局批数量的梯度更新过程。本文中实现了令牌控制过程,不仅可以用来聚合梯度还可以对严重的过期梯度进行衰减。通过提供收敛性分析,我们发现 GBA 方案有和同步相似的收敛性质,并且进一步展示了对于稀疏的推荐模型 GBA 对于梯度过期的鲁棒性更好。在三个工业级别推荐任务上的实验,验证了 GBA 是一种有效的无需调参的训练模式切换方案。与各种最新的异步模式衍生的训练模式相比,GBA 在各种切换实验过程中可以获得 0.2% 的 auc 提升,对于推荐模型是一个显著的提升。此外,在资源紧张的集群环境下相比于同步训练 GBA 可以获得 2.4 倍的训练加速。

▐ Sustainable Online Reinforcement Learning for Auto-bidding
可持续在线强化学习自动出价算法

摘要:近年来,自动出价已成为广告主提升投放效果的重要手段,在真实广告系统(RAS)中,常见的自动出价策略是利用强化学习算法在复杂多变的竞价环境下进行实时报价。考虑到线上探索的成本和安全性,强化学习模型的训练通常是在一个模拟广告系统(VAS)中进行。由于RAS和VAS之间存在明显差距,导致强化学习在VAS中的训练存在在离线不一致问题。在本文中,首先,我们正式地定义了在离线不一致问题,并系统地分析了其成因和影响;其次,我们提出了可持续在线强化学习(SORL)框架,该框架首次直接以在线广告系统交互的方式训练自动出价策略,从而较好解决了在离线不一致问题。SORL框架包含探索和训练两部分算法,具体而言,我们基于Q函数的Lipschitz光滑特性设计了探索的安全域,并提出了一个安全高效的探索算法用于在线收集数据;另外提出了V-CQL算法用于利用收集到的数据进行离线训练,V-CQL算法通过优化训练过程中Q函数的形态,减小不同随机种子下训练策略表现的方差,从而提高了训练的稳定性。大量的仿真和线上实验验证了SORL算法在效果上优于已有自动出价算法。

END

641a81150e53b0f305d09e94a68e6dfd.gif

欢迎关注「阿里妈妈技术」,了解更多~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值