赛后复盘 - DataCastle 科大讯飞AI营销算法大赛

博主参加了DataCastle的科大讯飞AI营销算法大赛,虽然未能进入复赛,但从中收获颇丰。文章讨论了数据清洗、特征工程、LightGBM模型的应用以及数据泄漏问题,揭示了比赛中遇到的挑战和解决思路。此外,作者反思了参赛过程中的学习和成长,包括理解数据分布不一致、避免数据泄漏以及LightGBM的优势与局限性。
摘要由CSDN通过智能技术生成

最近这个月参加了DataCastle上的科大讯飞AI营销算法大赛,最后的名次是97 / 1086,没能进入复赛(要求前50名)。其实也没什么好失落的,已经尽力了,这就是我现阶段的真实水平。最大的遗憾,应该是比赛结束前三天才知道这个比赛竟然有交流用的QQ群!感觉错过了一个亿!这段时间里总是在想,DataCastle这个平台怎么做得这么差,竞赛圈里没有人发帖,没有交流,只能靠自己和队友埋头苦干。后来才知道原来大家天天都在群里交流心得。。唉,生活就是遗憾的艺术吧。

Anyway,还是有一些收获的,写篇博客复盘一下。等复赛的最后结果开源之后,应该会有更多的收获吧,到时候再更新一下。


一些自问自答

  • 似乎这一个月里其实也没做多少内容?

是的。我原本以为自己投入了很多的精力,做了很多事情,今天写完博客之后才发现,其实也没做什么。可能是在给将来积累知识和经验吧,终究是能够用得上的,避免今后掉进相同的坑里。

  • 有没有学到什么关于广告业务的知识?

并没有。我到今天都不知道数据特征里的创意(creative)和一级频道(f_channel)到底指的是什么,而且这个比赛的所有变量都是脱敏过后的,能看到的都是一堆乱码,都是诸如ag_2100040,724495373286, B4734117F3 这样的数据,场景的代入感很差。我也不必要知道某个变量是什么意思,知道它是categorical feature还是numeric feature就够了。

我并不知道该怎么样把广告的点击率给提升上去,我所做的事情,更多是找到一种判断方法,判断什么样的广告点击率高,什么样的广告点击率低,仅此而已。

  • 写代码的水平有没有提升?

有提升,但提升不大。虽然我写的代码有一千多行,但都很简单,就是些常见的pandas的操作罢了。要说有什么新的,应该是学了一下python中的try..except...以及continuenext等语句的写法。之前参加kaggle的home credit default risk竞赛的时候,接触到了一些大型的工程,十个py文件,四千多行代码,层层叠叠的复杂依赖关系,这次比赛里没有用到,因为数据量小,我觉得没啥必要,徒增麻烦。

  • 对特征工程有什么新的理解?

似乎生成新的特征并不需要对实际业务有多么深刻的理解,常见的套路就是求各种各样的统计量,count/ unique/ sum/ mean/ var等等,如此种种,感觉就是暴力一把梭,把所有的可能都给枚举出来,穷尽各种可能,然后用高性能的机器去遍历,寻找出好的特征。当然,我的这个理解可能是错的,因为我并不擅长创造新特征,我的想象力太差了,希望这个比赛最终结束之后能有新的观点吧。

  • 为什么要参加比赛?
    • 可以把平时学习的东西综合应用到实际中,能强化理解,能锻炼自己;
    • 有利于自己实现转行,打比赛的时候别人才不管你是什么学科背景的呢,提交分数高才是王道;
    • 比赛的数据都是来自于真实世界、真实业务场景下的宝贵的真实数据,我对这样的数据没有抵抗力,我想触碰真实世界,不想在模拟的数据集里闹腾;
    • 和选手们进行交流和讨论,结交数据科学圈内的新朋友,积累人脉,逐步实现转型;
    • 提交成绩和排名榜的更新都是实时的,就像是《头号玩家》的排名榜,我觉得很刺激,很有趣,像是大家在一块儿打游戏;

  • 觉得自己在数据科学这块领域中的核心竞争力是什么?

暂时还没有。硬要说有的话,大概就是自己对于数据科学的热情和对未知事物的好奇心吧。

  • 参加比赛有没有觉得沮丧的时候?

有,很多很多。做的实验有很多都是失败的,经常实现不了预期的效果,成绩长期没有提升。最沮丧的时候是发现自以为学到了很多新知识,把成果拿出来和别人PK,这才发现原来自己是在自娱自乐。

  • 下一步有什么打算?

还没想好。不过不太想做数据挖掘类(回归和分类)的比赛了,想尝试一下深度学习(计算机视觉)方向的比赛。数据挖掘比赛做久了,感觉什么都是玄学,感觉做什么都有data leakage,很多东西都难以解释难以理解,有种flying blind的感觉。


比赛内容

来自官方的背景介绍:科大讯飞AI营销云在高速发展的同时,积累了海量的广告数据和用户数据,如何有效利用这些数据去预测用户的广告点击概率,是大数据应用在精准营销中的关键问题,也是所有智能营销平台必须具备的核心技术。本次大赛提供了讯飞AI营销云的海量广告投放数据,参赛选手通过人工智能技术构建预测模型预估用户的广告点击概率,即给定广告点击相关的广告、媒体、用户、上下文内容等信息的条件下预测广告点击概率。希望通过本次大赛挖掘AI营销算法领域的顶尖人才,共同推动AI营销的技术革新。

简单来说就是道两分类的机器学习题,target变量为用户是否点击该广告(1为点击,0为未点击)。初赛的数据量级是,训练集100万样本,测试集4万样本,特征一共有34个。这份比赛数据比较特别的一点是,

评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值