赛后复盘 - DataCastle 科大讯飞AI营销算法大赛

最新推荐文章于 2024-08-22 15:36:39 发布

廖致君

最新推荐文章于 2024-08-22 15:36:39 发布

阅读量5.2k

点赞数 5

本文链接：https://blog.csdn.net/paul0127/article/details/82990273

版权

博主参加了DataCastle的科大讯飞AI营销算法大赛，虽然未能进入复赛，但从中收获颇丰。文章讨论了数据清洗、特征工程、LightGBM模型的应用以及数据泄漏问题，揭示了比赛中遇到的挑战和解决思路。此外，作者反思了参赛过程中的学习和成长，包括理解数据分布不一致、避免数据泄漏以及LightGBM的优势与局限性。

摘要由CSDN通过智能技术生成

最近这个月参加了DataCastle上的科大讯飞AI营销算法大赛，最后的名次是97 / 1086，没能进入复赛（要求前50名）。其实也没什么好失落的，已经尽力了，这就是我现阶段的真实水平。最大的遗憾，应该是比赛结束前三天才知道这个比赛竟然有交流用的QQ群！感觉错过了一个亿！这段时间里总是在想，DataCastle这个平台怎么做得这么差，竞赛圈里没有人发帖，没有交流，只能靠自己和队友埋头苦干。后来才知道原来大家天天都在群里交流心得。。唉，生活就是遗憾的艺术吧。

Anyway，还是有一些收获的，写篇博客复盘一下。等复赛的最后结果开源之后，应该会有更多的收获吧，到时候再更新一下。

一些自问自答

似乎这一个月里其实也没做多少内容？

是的。我原本以为自己投入了很多的精力，做了很多事情，今天写完博客之后才发现，其实也没做什么。可能是在给将来积累知识和经验吧，终究是能够用得上的，避免今后掉进相同的坑里。

有没有学到什么关于广告业务的知识？

并没有。我到今天都不知道数据特征里的创意（creative）和一级频道（f_channel）到底指的是什么，而且这个比赛的所有变量都是脱敏过后的，能看到的都是一堆乱码，都是诸如ag_2100040，724495373286， B4734117F3 这样的数据，场景的代入感很差。我也不必要知道某个变量是什么意思，知道它是categorical feature还是numeric feature就够了。

我并不知道该怎么样把广告的点击率给提升上去，我所做的事情，更多是找到一种判断方法，判断什么样的广告点击率高，什么样的广告点击率低，仅此而已。

写代码的水平有没有提升？

有提升，但提升不大。虽然我写的代码有一千多行，但都很简单，就是些常见的pandas的操作罢了。要说有什么新的，应该是学了一下python中的try..except...以及continue、next等语句的写法。之前参加kaggle的home credit default risk竞赛的时候，接触到了一些大型的工程，十个py文件，四千多行代码，层层叠叠的复杂依赖关系，这次比赛里没有用到，因为数据量小，我觉得没啥必要，徒增麻烦。

对特征工程有什么新的理解？

似乎生成新的特征并不需要对实际业务有多么深刻的理解，常见的套路就是求各种各样的统计量，count/ unique/ sum/ mean/ var等等，如此种种，感觉就是暴力一把梭，把所有的可能都给枚举出来，穷尽各种可能，然后用高性能的机器去遍历，寻找出好的特征。当然，我的这个理解可能是错的，因为我并不擅长创造新特征，我的想象力太差了，希望这个比赛最终结束之后能有新的观点吧。

为什么要参加比赛？
- 可以把平时学习的东西综合应用到实际中，能强化理解，能锻炼自己；
- 有利于自己实现转行，打比赛的时候别人才不管你是什么学科背景的呢，提交分数高才是王道；
- 比赛的数据都是来自于真实世界、真实业务场景下的宝贵的真实数据，我对这样的数据没有抵抗力，我想触碰真实世界，不想在模拟的数据集里闹腾；
- 和选手们进行交流和讨论，结交数据科学圈内的新朋友，积累人脉，逐步实现转型；
- 提交成绩和排名榜的更新都是实时的，就像是《头号玩家》的排名榜，我觉得很刺激，很有趣，像是大家在一块儿打游戏；

觉得自己在数据科学这块领域中的核心竞争力是什么？

暂时还没有。硬要说有的话，大概就是自己对于数据科学的热情和对未知事物的好奇心吧。

参加比赛有没有觉得沮丧的时候？

有，很多很多。做的实验有很多都是失败的，经常实现不了预期的效果，成绩长期没有提升。最沮丧的时候是发现自以为学到了很多新知识，把成果拿出来和别人PK，这才发现原来自己是在自娱自乐。

下一步有什么打算？

还没想好。不过不太想做数据挖掘类（回归和分类）的比赛了，想尝试一下深度学习（计算机视觉）方向的比赛。数据挖掘比赛做久了，感觉什么都是玄学，感觉做什么都有data leakage，很多东西都难以解释难以理解，有种flying blind的感觉。

比赛内容

来自官方的背景介绍：科大讯飞AI营销云在高速发展的同时，积累了海量的广告数据和用户数据，如何有效利用这些数据去预测用户的广告点击概率，是大数据应用在精准营销中的关键问题，也是所有智能营销平台必须具备的核心技术。本次大赛提供了讯飞AI营销云的海量广告投放数据，参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率，即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。希望通过本次大赛挖掘AI营销算法领域的顶尖人才，共同推动AI营销的技术革新。

简单来说就是道两分类的机器学习题，target变量为用户是否点击该广告（1为点击，0为未点击）。初赛的数据量级是，训练集100万样本，测试集4万样本，特征一共有34个。这份比赛数据比较特别的一点是，