FuxiCTR 介绍 -- CTR 预估任务中的 Open Benchmark

FuxiCTR 介绍 – CTR 预估任务中的 Open Benchmark

前言 (与主题无关, 可忽略~)

上班太用功了, 眼睛有点不舒服 … 今早终于 7 点醒了, 正常了一点, 平时 4 ~ 5 点醒简直可怕 🤣

推荐一个 Chrome 插件: Find Code for Research Papers - CatalyzeX, 可以主动搜索论文中的源代码; 相关介绍可以查看 Chrome 科研神器!去谷歌学术搜到文章,代码链接就能自动展示

广而告之

可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号;另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中;

FuxiCTR

文章信息

  • 论文标题: FuxiCTR: An Open Benchmark for Click-Through Rate Prediction
  • 论文地址: https://arxiv.org/abs/2009.05794
  • 代码地址: 作者在论文中说后面会公布, 坐等…
  • 发表时间: 2020
  • 论文作者: Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He
  • 作者单位: 华为

核心观点

目前针对 CTR 的研究众多, 但是没有统一的评估标准, 导致有的研究可能没有办法复现, 或者实验结果与原文披露的结果有偏差等情况. 于是本文建立了一个公开的 Benchmark, 名为 FuxiCTR, 注意它不是一个模型, 而是对目前已有的 24 个 CTR 模型进行重新评估, 用大量的实验来验证这些模型的效果, 并给出了这些模型在 Criteo, Avazu 两个数据集上的表现, 方便后续研究人员的使用;
另外本文还分享了很多训练模型时有用的实践. 比如提高性能的方法:

  1. 数据处理方面, 过滤掉出现次数太少的特征;
  2. 较大的 Batch size
  3. 较大的 embedding size
  4. 使用正则化和 Dropout, 可以减小模型的过拟合;
  5. 使用 BN

另外给我的一些启示是:

  • 从 FuxiCTR 的实验结果来看, 后续可以尝试的模型有 FiBiNet, FGCNN, xDeepFM;
  • 还可以从 Attention, GNN, Convolution 等角度考虑问题;

核心观点介绍

一切尽在下面两张表格中:

另外论文给出的图示更为直观些, 所以也贴上:

上图展示了 FuxiCTR 跑出来的结果和 SOTA 披露的结果的对比, 可以发现, 从 SOTA 披露的结果根本发现不了啥规律, 不知道这些模型到底有没有提升, 因为结果容易受:

  • Data Partition (比如如何将原始数据集划分为训练集, 验证集和测试集)
  • Data Preprocessing
  • Model Code and training code: 有的研究没有开源
  • Model hyper-parameters
  • Baseline hyper-parameters and baseline code

这些因素影响. 但是从 FuxiCTR 的结果来看, 可以发现明显的规律.

FuxiCTR 的工作真的功德无量~ 4600+个实验, 简直牛掰啊!

结论

好吧, 我承认我又水了一篇 Blog~, 十月的指标完成啦. 后面再写新的博客就是超额完成.

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值