数据竞赛专题 | 从赛题理解到竞赛入门基础

本文由多位数据竞赛专家分享,详细解析数据竞赛从赛题理解到实战的关键步骤。赛题理解包括赛题背景、数据探索、评价指标和业务分析,每个环节都对后续工作至关重要。理解赛题的业务逻辑、数据特性以及评价标准,可以帮助参赛者制定有效策略,提升模型性能。此外,文中还提到时间序列问题、分类问题的解决方法以及NLP任务的处理思路,强调了数据预处理和模型选择的重要性。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解、数据探索、数据预处理、特征工程、模型建立与参数调优、模型融合六个方面完整解析数据竞赛知识体系,帮助竞赛选手从0到1入门和进阶竞赛。

下面是大咖分享

???

数据挖掘方向


640?wx_fmt=png

王贺 ID:鱼遇雨欲语与余

简介:武汉大学硕士,2019年腾讯广告算法大赛冠军选手,京东算法工程师,一年内获得两冠四亚一季的佳绩


不得不说赛题理解是被很多人所忽略的一个问题,作为打比赛的第一个步,我们应该做到熟稔于心。那么怎样才能达到这样的效果呢,这里我们先将赛题理解分为细分为四个部分,分别是赛题背景赛题数据评价指标业务分析。下面将对其逐个介绍,帮助走好比赛的第一步。

 

赛题背景

三个问题:

(1)这个赛题是什么业务问题;

(2)具体的业务流程是什么;

(3)最终的目标是什么。

能够回答这三个问题,基本的赛题背景也算是了解了。


举个例子,在2019腾讯广告算法大赛中,三个问题分别是:

(1)本次算法大赛的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品——广告曝光预估,那么很明显了,广告主服务的真实业务产品中的广告曝光预估;

(2)广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围;

(3)最终目标预测出广告的日曝光量。这些内容都是可以从赛题介绍中所找到的。

 

赛题数据

对于赛题的数据,就需要我们进行基本的探查,作为理解部分不需要太过深入。

(1)每种数据集之间的关系;

(2)数据中缺失值情况;

(3)类别特征和数值特征;这些可以作为我们关注基本点。


640?wx_fmt=png


评价指标

这里主要分为分类指标和回归指标,当然还有很多主办方会自定义评价指标。不同于实际工作中,评价指标需要自己来选取,竞赛中会直接给出评价指标。我们需要做的是熟悉指标的数学性质,以及指标的区别,你是否真的理解logloss和auc的区别,同样是二分类指标,为什么有的比赛选择logloss,而有的选择auc。为什么mse对异常敏感,mae会损失掉部分异常。面对F1指标,有什么好的策略来选择阈值。这些都应该是竞赛第一步中所考虑的问题。

 

业务分析

所有背离业务的分析都是“纸老虎”,业务分析帮助我们理解赛题,同时有助于我们进行特征工程。在我看来业务分析是连接着赛题理解与特征工程的桥梁,起到承上启下的作用。就比如我们在电商平台对一件商品进行下单,需要完成哪些页面跳转,每次跳转对最后下单都会有影响,当然对下单影响最大的就是加入购物车的那次跳转。再举个例子,最近的一场比赛中,我们团队对业务进行了充足的分析,赛题目标是预测用户未来一期的还款情况,那么可以从用户的还款意愿和还款能力来考虑,有哪些因素会影响最终结果。去模拟这样一个过程,可以看作是“角色扮演”,尝试把自己当作一个用户去进行一次交易,站在他人的视角上来寻找关键点,从而帮助理解赛题和提取特征。


640?wx_fmt=png



作者知乎专栏:

zhuanlan.zhihu.com/DataAI



640?wx_fmt=png

王茂霖 ID:ML67

简介:华中科技大学研究生,DCIC-2019风电赛Top2选手。


数据竞赛行军打仗第一步:赛题理解(摸清敌情)

作为切入一道赛题的基础,赛题理解是极其重要的,对于赛题的理解甚至会影响后续的特征工程构建以及模型的选择,对了赛题背后的思想以及赛题业务逻辑的清晰,也很有利于花费更少时间构建更为有效的特

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值