KDD2021|华为联合上交提出CTR预估数值特征embedding学习框架AutoDis(已开源)

An Embedding Learning Framework for Numerical Features inCTR PredictionHuifeng Guo, Bo Chen, ...
摘要由CSDN通过智能技术生成

An Embedding Learning Framework for Numerical Features in CTR Prediction

Huifeng Guo, Bo Chen, Ruiming Tang, Weinan Zhang, Zhenguo Li, Xiuqiang He

Huawei Noah’s Ark Lab, Shanghai Jiao Tong University

https://arxiv.org/pdf/2012.08986.pdf

工业界推荐系统中,CTR预估非常重要,很多深层CTR模型都遵循embedding和特征交互的范式。但是,大多数模型都集中在设计网络结构来更好的对特征交互进行建模。而对于特征embedding模块,尤其是数值型特征,被忽略了。

现有针对数值特征的处理方法很难捕获有效信息,这是因为现有方法信息容量比较小,基于离线专家特征工程很难离散化。这篇文章针对CTR预估,提出一种新的针对数值特征的embedding学习框架,AutoDis,该框架模型容量更大,而且可以以端到端的形式训练,同时还可以保留唯一的表示属性。

AutoDis包含三个核心部分,元embedding,自动离散化以及聚合算法。具体而言,针对每一个数值域提出元embedding,可以利用可控范围的参数来学习域的全局知识。然后,可微分自动离散算法可以对数值特征软离散化,并且可以捕获数值特征和元embedding的相关性。最后,通过聚合函数,可以学到特有并且富含信息的embedding。

两个公开数据集和一个工业界数据集上的大量实验表明了AutoDis的有效性。AutoDis已经部署到主广告平台,在线A/B测试结果相对基准模型CTR提升2.1%,eCPM提升2.7%。此外,该框架已经在MindSpore开源。

目前工业界主流CTR预估模型,主要有以下几个

7663bc61c58a5f7c3ace4e1e9a50b303.png

主流CTR预估框架图示如下

e1d7d8637cf8623ee36e165785605c1a.png

大部分类别型特征可以直接embedding,但是数值型特征进行embedding时比较麻烦

714ba7b1830105ce956b87b59360deec.png

8eeb8107e8e5781a6020b3e540c664f2.png

现有针对数值型特征的处理办法,可以分为以下三类,各类方法简介及对比如下

e72ad694df3bdafe5a162afe9f3f9e65.png

作者们所提出的AutoDis简介及优势如下

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值