catboost特征重要性_CIKM2019|FiGNN图神经网络学习特征交互在CTR预估中的应用(已开源)...

Fi-GNN: Modeling Feature Interactions via Graph Neural Networks for CTR Prediction

Zekun Li, Zeyu Cui, Shu Wu, Xiaoyu Zhang, Liang Wang

University of Chinese Academy of Sciences

http://cn.arxiv.org/pdf/1910.05552.pdf

ctr预估在web应用中,比如在线广告和推荐系统,这些应用中的特征通常都是多域形式的,非常重要。

ctr预估中的关键在于对不同特征域的特征交互进行建模。最近提出的基于深度学习的模型遵循这样一种范式,原生的稀疏输入多域特征首先映射到稠密域嵌入向量,然后简单地连接起来喂入深度神经网络或者其他的网络,进而学习高阶特征交互。但是,简单地将特征域进行非结构化的结合不可避免的会限制模型的能力,不能充分灵活精确地捕捉不同域的更加复杂巧妙的交互。

这篇文章提出用图结构来直观表示多域特征,其中每个节点对应一个特征域,不同的域可以通过边来交互。特征交互建模转换为图中节点交互的建模。论文作者们设计了一种新的模型,Fi-GNN。这种模型可以有效利用图的强表示能力,该模型不仅可以灵活清楚的对特征交互进行建模,而且为CTR预估提供了更好的模型解释。

两个真实数据集上的实验结果验证了论文作者们所提模型的有效性。

多域特征及业界主流做法简介如下

503007e397840dc617803721cc2f69b5.png

部分基于深度学习的模型有以下几种

eb48df6ee41c090dc9ef93b07c7fc205.png

这篇文章的主要贡献如下

f151c23e0de1c1d5148b4042cc88080d.png

基于FM的几种方法分别具有以下特点

5ec041fc9654ade0c00432c3e3fa1681.png

基于深度学习的几种方法简单对比如下

bab1ee86e5ba2f45a3dc3acf5d052eb4.png

部分基于图的方法将图结构数据转为序列结构数据来处理

6900a8af80dd0bc441849af77709e88c.png

部分代表性的图神经网络有以下几种

dc245b27a9348b0d669a4fccab877980.png

模型整体结构图示如下

979bf65295a7e349c9c41ad4bc56774a.png

嵌入层流程简介如下

d26c7601bacaa78f819a329e906cf95a.png

多头注意力连接方式如下

837407056dcbe0dd1c5811ec9893ad3e.png

fi-gnn图示如下

d32d25fa67dbd1f751ef78bf8ee785bb.png

节点的状态聚合公式如下

a5a4d398058beacde52edc7e85d51229.png

边权计算公式是基于注意力机制的

631c2b63efd3b0ed11c3de3641c38756.png

边权转换公式及更新后的节点更新公式如下

35abb18c7dc2e1af7c0687c7a75b7fab.png

利用GRU来更新状态的公式细节如下

0b151968b2ab3b929b1748f7d2912f8c.png

利用残差连接来更新状态的公式如下

9793e8bcf1b231487855c04fa80ebf9f.png

注意力打分层细节描述如下

090b475a1b33462a6e4cfff0e5395767.png

目标函数,训练方法以及参数规模如下

ca2c1e25800a8766ab5d2a3ee001791a.png

fi-gnn跟FM的关系如下

37bf1b0ae51a09ed8b18d6986c83ad51.png

数据集描述,部分预处理以及分割策略如下

74a7322d4d0c30b1487c12ab6a002e6f.png

数据集统计信息如下

c77619e94e68f7776275a915309f83e0.png

评价指标有以下几个

2a993dd9adc952ac971514a14b742249.png

参与对比的方法有以下几个

f3038c418c2044f8bc502b7ef34b7e21.png

2a7092ba1e8a110141beba4133201865.png

参数设置细节如下

5b256d6eb376eb45b10660a2e027aa67.png

效果对比如下

db0c00da2415106f24471de797524bf5.png

几种变体模型及效果如下

50bf4ce863d84ae81f551ba2683eeb2d.png

67cb8902f0589019c952f600903d927d.png

008b459b657ac8561e8495d51d63d805.png

部分超参数的影响图示如下

6b3cf69582247c5a2fd80543e8e9545b.png

不同特征之间关系的重要性图示如下

9e754c888196a204410c7eb977313298.png

不同特征的重要性图示如下

adcb823016b9c4e9ad5d1f894c2e3aea.png

代码地址

https://github.com/CRIPAC-DIG/Fi_GNN


              00b2912d1e167b9a0bfa5350336bedbf.png我是分割线00b2912d1e167b9a0bfa5350336bedbf.png


您可能感兴趣

CIKM2019|AutoInt自注意力神经网络自动学习特征交互(已开源)

WSDM2019|近似解耦随机游走RecWalk在top-N推荐中的应用(已开源)

CIKM2013|深层结构语意模型DSSM在web搜索中的应用

WSDM2019|社交注意力记忆网络在推荐系统中的应用(已开源)

SIGIR2020|基于序贯行为的高效迁移学习在用户建模及推荐中的应用(已开源)

WSDM2019|门限注意力自编码在内容感知推荐中的应用(已开源)

WWW2019|对偶图注意力网络在推荐系统中的应用(已开源)

KDD2019|个性化注意力在新闻推荐中的应用

SIGIR2020|序贯元学习方法在重新训练推荐系统中的应用(已开源)

WSDM2019|动态图注意力网络在基于会话的社交推荐中的应用

IJCAI2017|基于注意力机制的FM模型AFM在学习特征交互权重中的应用(已开源)

KDD2020|自动特征交互选择(AutoFIS)分解机模型在CTR预估中的应用(已开源)

SIGIR2020|LightGCN图卷积网络在推荐系统中的应用(已开源)

WWW2019|图神经网络在社交推荐中的应用

AAAI2019|自注意力度量学习在下一个商品推荐中的应用

WWW2020|基于隐含意图的注意力序列模型在下一个商品推荐中的应用

WWW2015|深度学习在推荐系统跨域用户建模中的应用

ICDE2020|多图卷积网络在草药推荐中的应用

ATM|注意力转移模型在预测下一个商品中的应用

IJCAI2019|深层自注意力网络在序列推荐中的应用

AAAI2020|深度学习在表格分析中的应用

NIPS论文系列|复数域RNN,深层生成模型,DRL在MDP中的应用(已开源)

AAAI2020|结合时空信息的分层注意力网络在大规模社交网络中的应用

ICDE2020|基于深度学习的关系抽取

只有正样本和无标签样本时如何构建分类器

ICDE2020|图卷积网络在价格感知推荐中的应用

WSDM2020|基于强化学习的多轮对话推荐系统(EAR, 即将开源)

WWW2020|如何利用未来数据协助训练基于会话的推荐(GRec)

ICML2018|基于自注意力的序列推荐模型SASRec(已开源)

IJCAI2018|分层时空LSTM在位置预测中的应用(HST-LSTM)

IJCAI2019|基于会话和注意力机制的CTR预估模型DSIN(已开源)

AISTATS2018|密歇根大学提出新型在线boosting算法用于多标签排序(已开源)

AAAI2020|一种新型高效兼容多行为的推荐系统模型EHCF(已开源)

ICML2007|深度学习用于协同过滤的开篇作之一(出自深度学习鼻祖之一Hinton)

SIGIR2019|基于BERT的深度学习模型在信息检索中的应用(已开源)

SIGIR2019|深度学习如何更好地用于学习排序(LTR)(已开源)

SIGIR2019|利用DeepSHAP来解释神经检索模型(已开源)

KDD2018|基于GBM的动态定价回归模型

RecSys2019|优于DeepFM和XDeepFM的CTR模型FiBiNET

SIGIR2018|选择性GBDT(SelGB)用于排序学习(已开源)

IJCAI2019|基于对抗变分自编码的协同过滤框架VAEGAN

聊聊CatBoost

聊聊XGBoost CatBoost LightGBM RF GBDT

顶会中深度学习用于CTR预估的论文及代码集锦 (3)

ICML 2018 深度学习论文及代码集锦(5)

深度学习用于机器翻译的论文及代码集锦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作者介绍 Toby,持牌照金融公司担任模型验证专家,国内最大医药数据心数据挖掘部门负责人!和重庆儿科医院,科院教授,赛柏蓝保持慢病数据挖掘项目合作!管理过欧美日印巴西等国外药典数据库,马丁代尔数据库,FDA溶解度数据库,临床试验数据库,WHO药物预警等数据库。课程概述 此课程讲述如何运用python的sklearn快速建立机器学习模型。课程结合美国威斯康辛乳腺癌细胞临床数据,实操演练,建立癌细胞预测分类器。课程讲述十大经典机器学习算法:逻辑回归,支持向量,KNN,神经网络,随机森林,xgboost,lightGBM,catboost。这些算法模型可以应用于各个领域数据。本视频系列通俗易懂,课程针对学生和科研机构,python爱好者。本视频教程系列有完整python代码,观众看后可以下载实际操作。了解癌症肿瘤基本常识,建立健康生活方式,预防癌症,减轻癌症治疗成本。课程背景 警钟长鸣!癌症离我们远吗?《我不是药神》催人泪下,笔者在此揭露真相,癌症不是小概率疾病,癌症就在身边。癌症早期发现和控制可极大延长寿命和减少治疗费用。笔者下载美国威斯康辛临床数据,运用python sklearn建立乳腺癌分类器模型,可预测正常细胞和癌细胞。我国医院重视治疗,但忽略疾病预防教育。通过我多年机器学习数据挖掘,我发现疾病可防可控,通过自身努力,我们可以提前发现疾病早期症状或扼杀疾病于摇篮。希望此课程让广大医疗科研工作者认识疾病预防教育重要性。  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值