竞赛入门-赛题理解

理解赛题背景

三个问题?
(1)这个赛题是什么业务问题;
(2)具体业务流程是什么;
(3)最终业务目标
能够回答这三个问题,基本的赛题背景也算是了解了。

赛题数据

对于赛题的数据,就需要我们进行基本探查,作为理解部分不要求太过深入
(1)每种数据集之间的关系;
(2)数据中缺失值情况;
(3)类别特征和数值特征;这些可以作为我们关注基本点。
在这里插入图片描述

评价指标

这里主要分为分类指标和回归指标,当然还有很多主办方会自定义评价指标。不同于实际工作中,评价指标需要自己来选取,竞赛中会直接给出评价指标。我们需要做的是熟悉指标的数学性质,以及指标的区别,你是否真的理解logloss和auc的区别,同样是二分类指标,为什么有的比赛选择logloss,而有的选择auc。为什么mse对异常敏感,mae会损失掉部分异常。面对F1指标,有什么好的策略来选择阈值。这些都应该是竞赛第一步中所考虑的问题。

业务分析

所有背离业务的分析都是“纸老虎”,业务分析帮助我们理解赛题,同时有助于我们进行特征工程。在我看来业务分析是连接着赛题理解与特征工程的桥梁,起到承上启下的作用。就比如我们在电商平台对一件商品进行下单,需要完成哪些页面跳转,每次跳转对最后下单都会有影响,当然对下单影响最大的就是加入购物车的那次跳转。再举个例子,最近的一场比赛中,我们团队对业务进行了充足的分析,赛题目标是预测用户未来一期的还款情况,那么可以从用户的还款意愿和还款能力来考虑,有哪些因素会影响最终结果。去模拟这样一个过程,可以看作是“角色扮演”,尝试把自己当作一个用户去进行一次交易,站在他人的视角上来寻找关键点,从而帮助理解赛题和提取特征。

其他

1)赛题理解究竟是理解什么?
理解赛题是不是把一道赛题的背景介绍读一遍就OK了呢?并不是的,理解赛题其实也是从直观上梳理问题,分析问题是否可行的方法,有多少可行度,赛题做的价值大不大,理清一道赛题要从背后的赛题背景引发的赛题任务理解其中的任务逻辑,可能对于赛题有意义的外在数据有哪些,并对于赛题数据有一个初步了解,知道现在和任务的相关数据有哪些,其中数据之间的关联逻辑是什么样的。对于不同的问题,在处理方式上的差异是很大的。

2)有了赛题理解后能做什么?
在对于赛题有了一定的了解后,分析清楚了问题的类型性质和对于数据理解的这一基础上,是不是赛题理解就做完了呢? 并不是的,就像摸清了敌情后,我们至少就要有一些相应的理解分析,比如这题的难点可能在哪里,关键点可能在哪里,估摸可以用什么方法去解决一些什么问题,哪部分数据应该是关键数据(背景的业务逻辑下,比如CTR的题,一个寻常顾客大体会有怎么样的购买行为逻辑规律,或者风电那种题,如果机组比较邻近,相关一些风速,转速特征是否会很近似)。这时是在一个宏观的大体下分析的,有助于摸清整个题的思路脉络,以及后续的分析方向。
3)赛题理解的-评价指标:
为什么要把这部分单独拿出来呢,因为这部分会涉及后续模型预测中两个很重要的问题:

  1. 本地模型的验证方式,很多情况下,线上验证是有一定的时间和次数限制的,所以在比赛中构建一个合理的本地的验证集和验证的评价指标是很关键的步骤,能有效的节省很多时间。

  2. 不同的指标对于同样的预测结果是具有误差敏感的差异性的,比如AUC,logloss, MAE,RSME,或者一些特定的评价函数。是会有很大可能会影响后续一些预测的侧重点。

4)赛题背景中可能潜在隐藏的条件:
其实赛题中有些说明是很有利益-都可以在后续答辩中以及问题思考中所体现出来的,比如高效性要求,比如对于数据异常的识别处理,比如工序流程的差异性,有些的意识是可以贯穿问题思考,特征,模型以及后续处理的,也有些会对于特征构建或者选择模型上有很大益处,反过来如果在模型预测效果不好,其实有时也要反过来思考,是不是赛题背景有没有哪方面理解不清晰或者什么其中的问题没考虑到。

一个大佬队伍作的图
在这里插入图片描述
注:本篇文章取自天池平台,用于自己学习使用
链接: https://tianchi.aliyun.com/forum/postDetail?postId=71556.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值