为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解、数据探索、数据预处理、特征工程、模型建立与参数调优、模型融合六个方面完整解析数据竞赛知识体系,帮助竞赛选手从0到1入门和进阶竞赛。
下面是大咖分享
???
数据挖掘方向王贺 ID:鱼遇雨欲语与余
简介:武汉大学硕士,2019年腾讯广告算法大赛冠军选手,京东算法工程师,一年内获得两冠四亚一季的佳绩
不得不说赛题理解是被很多人所忽略的一个问题,作为打比赛的第一个步,我们应该做到熟稔于心。那么怎样才能达到这样的效果呢,这里我们先将赛题理解分为细分为四个部分,分别是赛题背景、赛题数据、评价指标和业务分析。下面将对其逐个介绍,帮助走好比赛的第一步。
赛题背景
三个问题:
(1)这个赛题是什么业务问题;
(2)具体的业务流程是什么;
(3)最终的目标是什么。
能够回答这三个问题,基本的赛题背景也算是了解了。
举个例子,在2019腾讯广告算法大赛中,三个问题分别是:
(1)本次算法大赛的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品——广告曝光预估,那么很明显了,广告主服务的真实业务产品中的广告曝光预估;
(2)广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围;
(3)最终目标预测出广告的日曝光量。这些内容都是可以从赛题介绍中所找到的。
赛题数据
对于赛题的数据,就需要我们进行基本的探查,作为理解部分不需要太过深入。
(1)每种数据集之间的关系;
(2)数据中缺失值情况;
(3)类别特征和数值特征;这些可以作为我们关注基本点。
评价指标
这里主要分为分类指标和回归指标,当然还有很多主办方会自定义评价指标。不同于实际工作中,评价指标需要自己来选取,竞赛中会直接给出评价指标。我们需要做的是熟悉指标的数学性质,以及指标的区别,你是否真的理解logloss和auc的区别,同样是二分类指标,为什么有的比赛选择logloss,而有的选择auc。为什么mse对异常敏感,mae会损失掉部分异常。面对F1指标,有什么好的策略来选择阈值。这些都应该是竞赛第一步中所考虑的问题。
业务分析
所有背离业务的分析都是“纸老虎”,业务分析帮助我们理解赛题,同时有助于我们进行特征工程。在我看来业务分析是连接着赛题理解与特征工程的桥梁,起到承上启下的作用。就比如我们在电商平台对一件商品进行下单,需要完成哪些页面跳转,每次跳转对最后下单都会有影响,当然对下单影响最大的就是加入购物车的那次跳转。再举个例子,最近的一场比赛中,我们团队对业务进行了充足的分析,赛题目标是预测用户未来一期的还款情况,那么可以从用户的还款意愿和还款能力来考虑,有哪些因素会影响最终结果。去模拟这样一个过程,可以看作是“角色扮演”,尝试把自己当作一个用户去进行一次交易,站在他人的视角上来寻找关键点,从而帮助理解赛题和提取特征。
作者知乎专栏:
zhuanlan.zhihu.com/DataAI
王茂霖 ID:ML67
简介:华中科技大学研究生,DCIC-2019风电赛Top2选手。
数据竞赛行军打仗第一步:赛题理解(摸清敌情)
作为切入一道赛题的基础,赛题理解是极其重要的,对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择,对了赛题背后的思想以及赛题业务逻辑的清晰,也很有利于花费更少时间构建更为有效的特