FuxiCTR 介绍 -- CTR 预估任务中的 Open Benchmark

最新推荐文章于 2025-02-18 12:32:38 发布

珍妮的选择

最新推荐文章于 2025-02-18 12:32:38 发布

阅读量2.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习深度学习 Benchmark CTR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Eric_1993/article/details/109038340

版权

机器学习专栏收录该内容

24 篇文章

订阅专栏

FuxiCTR 介绍 – CTR 预估任务中的 Open Benchmark

前言 (与主题无关, 可忽略~)

上班太用功了, 眼睛有点不舒服 … 今早终于 7 点醒了, 正常了一点, 平时 4 ~ 5 点醒简直可怕 🤣

推荐一个 Chrome 插件: Find Code for Research Papers - CatalyzeX, 可以主动搜索论文中的源代码; 相关介绍可以查看 Chrome 科研神器！去谷歌学术搜到文章，代码链接就能自动展示

广而告之

可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号；另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中；

FuxiCTR

文章信息

论文标题: FuxiCTR: An Open Benchmark for Click-Through Rate Prediction
论文地址: https://arxiv.org/abs/2009.05794
代码地址: 作者在论文中说后面会公布, 坐等…
发表时间: 2020
论文作者: Jieming Zhu, Jinyang Liu, Shuai Yang, Qi Zhang, Xiuqiang He
作者单位: 华为

核心观点

目前针对 CTR 的研究众多, 但是没有统一的评估标准, 导致有的研究可能没有办法复现, 或者实验结果与原文披露的结果有偏差等情况. 于是本文建立了一个公开的 Benchmark, 名为 FuxiCTR, 注意它不是一个模型, 而是对目前已有的 24 个 CTR 模型进行重新评估, 用大量的实验来验证这些模型的效果, 并给出了这些模型在 Criteo, Avazu 两个数据集上的表现, 方便后续研究人员的使用;
另外本文还分享了很多训练模型时有用的实践. 比如提高性能的方法:

数据处理方面, 过滤掉出现次数太少的特征;
较大的 Batch size
较大的 embedding size
使用正则化和 Dropout, 可以减小模型的过拟合;
使用 BN

另外给我的一些启示是:

从 FuxiCTR 的实验结果来看, 后续可以尝试的模型有 FiBiNet, FGCNN, xDeepFM;
还可以从 Attention, GNN, Convolution 等角度考虑问题;

核心观点介绍

一切尽在下面两张表格中:

另外论文给出的图示更为直观些, 所以也贴上:

上图展示了 FuxiCTR 跑出来的结果和 SOTA 披露的结果的对比, 可以发现, 从 SOTA 披露的结果根本发现不了啥规律, 不知道这些模型到底有没有提升, 因为结果容易受:

Data Partition (比如如何将原始数据集划分为训练集, 验证集和测试集)
Data Preprocessing
Model Code and training code: 有的研究没有开源
Model hyper-parameters
Baseline hyper-parameters and baseline code

这些因素影响. 但是从 FuxiCTR 的结果来看, 可以发现明显的规律.

FuxiCTR 的工作真的功德无量~ 4600+个实验, 简直牛掰啊!

结论

好吧, 我承认我又水了一篇 Blog~, 十月的指标完成啦. 后面再写新的博客就是超额完成.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。