FuxiCTR 介绍 – CTR 预估任务中的 Open Benchmark
前言 (与主题无关, 可忽略~)
上班太用功了, 眼睛有点不舒服 … 今早终于 7 点醒了, 正常了一点, 平时 4 ~ 5 点醒简直可怕 🤣
推荐一个 Chrome 插件: Find Code for Research Papers - CatalyzeX, 可以主动搜索论文中的源代码; 相关介绍可以查看 Chrome 科研神器!去谷歌学术搜到文章,代码链接就能自动展示
广而告之
可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号;另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中;
FuxiCTR
文章信息
- 论文标题: FuxiCTR: An Open Benchmark for Click-Through Rate Prediction
- 论文地址: https://arxiv.org/abs/2009.05794
- 代码地址: 作者在论文中说后面会公布, 坐等…
- 发表时间: 2020
- 论文作者: Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He
- 作者单位: 华为
核心观点
目前针对 CTR 的研究众多, 但是没有统一的评估标准, 导致有的研究可能没有办法复现, 或者实验结果与原文披露的结果有偏差等情况. 于是本文建立了一个公开的 Benchmark, 名为 FuxiCTR
, 注意它不是一个模型, 而是对目前已有的 24 个 CTR 模型进行重新评估, 用大量的实验来验证这些模型的效果, 并给出了这些模型在 Criteo, Avazu 两个数据集上的表现, 方便后续研究人员的使用;
另外本文还分享了很多训练模型时有用的实践. 比如提高性能的方法:
- 数据处理方面, 过滤掉出现次数太少的特征;
- 较大的 Batch size
- 较大的 embedding size
- 使用正则化和 Dropout, 可以减小模型的过拟合;
- 使用 BN
另外给我的一些启示是:
- 从 FuxiCTR 的实验结果来看, 后续可以尝试的模型有 FiBiNet, FGCNN, xDeepFM;
- 还可以从 Attention, GNN, Convolution 等角度考虑问题;
核心观点介绍
一切尽在下面两张表格中:

另外论文给出的图示更为直观些, 所以也贴上:

上图展示了 FuxiCTR 跑出来的结果和 SOTA 披露的结果的对比, 可以发现, 从 SOTA 披露的结果根本发现不了啥规律, 不知道这些模型到底有没有提升, 因为结果容易受:
- Data Partition (比如如何将原始数据集划分为训练集, 验证集和测试集)
- Data Preprocessing
- Model Code and training code: 有的研究没有开源
- Model hyper-parameters
- Baseline hyper-parameters and baseline code
这些因素影响. 但是从 FuxiCTR 的结果来看, 可以发现明显的规律.
FuxiCTR 的工作真的功德无量~ 4600+个实验, 简直牛掰啊!
结论
好吧, 我承认我又水了一篇 Blog~, 十月的指标完成啦. 后面再写新的博客就是超额完成.