诺亚方舟实验室提出数值特征自动离散框架AutoDis用于CTR预估

诺亚方舟实验室提出了AutoDis,一个自动离散框架,用于增强数值特征在CTR预估中的表达能力。AutoDis通过端到端优化,解决现有离散化方法的限制,通过元embedding集合捕捉特征间的关系。实验表明,AutoDis在多个数据集上对比现有方法表现出优越性能。
摘要由CSDN通过智能技术生成

AutoDis: Automatic Discretization for Embedding Numerical Features in CTR Prediction

Huifeng Guo, Bo Chen, Ruiming Tang, Zhenguo Li, Xiuqiang He

Noah’s Ark Lab

https://arxiv.org/pdf/2012.08986v1.pdf

推荐系统中,学习特征交互在CTR预估中非常重要。很多深层CTR模型遵循embedding 和 特征交互的范式。

大多数模型集中在特征交互模块,设计网络结构来更好的对特征交互进行建模。embedding模块,作为数据和特征交互模块的桥梁,被忽略了。

数值特征进行embedding常用的方法是归一化和离散化。前者在多个特征之间共享一个embedding,后者通过多种离散化方法,将数值特征转换为类别特征。

但是,第一种方法表达能力有限,第二种也是性能有限,因为离散化不能随着CTR模型的最终目标而优化。

为了解决数值特征的表达能力的问题,这篇文章提出一种自动离散化框架,AutoDis,它可以自动将数值特征离散化,并且以端到端的形式跟CTR模型一起优化。

具体而言,作者们为每一个数值域引入一个元embedding集合,可以对跨域的特征之间的关系进行建模,提出一种自动微分离散化和聚合方法,可以捕捉数值特征和元embedding之间的关联性。

 

两个公开数据集和一个工业界数据集上的实验表明,AutoDis相对STOA方法效果更优。

数值型特征不太容易利用embedding方法

这篇文章提出的AutoDis具有以下两个特性

这篇文章的主要贡献如下

目前大多数深层CTR模型基本都包含了下面两个模块

特征交互主要分为以下几类

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值