KDD2020|基于CTR预估的自动神经网络结构搜索

该文提出了一种自动搜索神经网络结构的框架,用于点击率(CTR)预测,解决了特征选择和网络设计问题。通过多目标进化搜索策略,包括MLP、FM和DP组件,以及考虑适合度、年龄和模型复杂性的幸存者选择,该框架能搜索到高效网络。实验证明,这种方法在多个推荐数据集上优于人工设计和其它自动搜索方法,并且具有较低的搜索空间复杂度。
摘要由CSDN通过智能技术生成

Towards Automated Neural Interaction Discovery for Click-Through Rate Prediction

https://arxiv.org/pdf/2007.06434.pdf

背景

在实时推荐、广告、搜索等领域中,点击率(CTR)预估都是一个关键性的问题。由于数据集规模大,特征多,大家都致力于发掘新的结构或设计新体系。文中就提出了一种可以自动搜索神经结构的框架,来解决人为的设计和选择特征并且设计结构的问题。

框架概览

网络的输入可以是稀疏特征也可以是稠密特征,稀疏特征会使用embedding做映射。然后会输入到不同的块结构中,这里块是被事先定义好的一些结构例如MLP,FM等。最后输入到一个线性层得到输出。

搜索组件概括

包括了三个组件分别是MLP、FM、DP(dot product)。对于每个组件来说,输入都有四个选择:只有稀疏特征、只有稠密特征、都有、都没有。一个组件可以接收任何在其之前出现组件的输出。文章只考虑MLP的隐单元数目,并且每个模块的输入维度都与稀疏特征的embedding size保持一致。

多目标进化搜索

使用进化算法搜索块空间,包括三个步骤,分别是:亲本选择、引导突变和幸存者选择。

多目标幸存者选择

为了维持一个具有多样结构的优势种群,文中设计了一个幸存者选择度量f来度量每个结构的生存值,并选择前p个结构作为父代选择的种群。度量中考虑了三种类型的目标,即适合度、年龄和模型复杂性。

 

其中aA表示结构a的年龄,q是一个大于总人口值的超参。

基于等级的父亲选择

亲本选择的目标是从群体中选择一种结构,以产生优质后代进行评估。文中采用了排名选择模式,并借鉴锦标赛选择的思想设计了一个非线性排名分布。经典的锦标赛方法通常是先随机选择一定数量的候选对象,然后从中选出最佳的一个。

文中使用超参数\lambda控制从整体中抽样的多少。

突变

采用一种LTR策略来学习基于成对排序损失体系结构之间的相对排序。整个子代过程分为三个步骤:(1)基于可开发的数据集(如目前研究的所有体系结构)训练引导者(2) 在父架构周围随机生成一组独特的邻居(3)根据向导选择最佳邻居作为子代。

实验

首先就是对比人工设计选择特征和其他自动搜索结构的框架在推荐数据集上取得了最佳的效果。

对比其他自动搜索框架,搜索空间复杂度是最低的。

并且,不同的数据集之间还有可以迁移的相似结构。

结论

论文从人工构建的网络中提取具有代表性的块(MLP、FM等),提出了一种基于结构级学习排序的多目标幸存者选择策略定制进化搜索算法。可以自动搜索最佳的网络体系结构,并在3个数据集上证明了他们提出的搜索结构的优越性。


Ref:Song Q, Cheng D, Zhou H, et al. Towards automated neural interaction discovery for click-through rate prediction[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 945-955.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值