一、初见竞赛

基础知识科普

竞赛 A、B榜:⼀般来讲,把同⼀批数据切分成两份,一部分用来评估 A 榜分数,另⼀份用来评估 B 榜分数。参赛者通常需要在竞赛的第⼀阶段不断根据 A 榜的得分来修正并改善建模⽅案,最后有两次机会可以选择⽤于计算 B 榜得分的结果⽂件,最终排名依据的是 B 榜得分。

比赛限制次数的原因:一方面是为了缩短不同参赛者的资源配置之间的差距,防止有些参赛者凭借其强大的计算资源获取不当优势;另一方面是为了避免参赛者过多地依赖于测试结果进行建模,导致模型陷⼊过拟合的泥沼,使得模型的泛化性较弱,做许多无用功。

1. 竞赛流程

竞赛流程主要分为:问题建模、数据探索、特征工程、模型训练、模型融合五个方面。

1.1 问题建模

在机器学习的问题建模中,并不是所有数据都是特征加标签这种已经可以直接加入模型训练的形式,很多时候还需要分析数据进而抽象出建模目标与方案。虽然通常来说竞赛的目标明确,但也不是所有竞赛的数据都是那种可以直接加入训练的形式。有些竞赛(如JDATA 智汇平台)就常常会有⼀些不同于⼀般分类和回归评价指标的评估方式,参赛者往往需要根据对赛题的理解自行利用主办方提供的数据构造训练集与测试集,这种竞赛极大地考验参赛者的问题建模水平,这也是这类竞赛的难点所在。

1.2 数据探索

数据探索,也常被称为 EDA(Exploratory Data Analysis,探索性数据分析)。

在理解赛题并大致知道了问题建模的方式之后,就需要结合对赛题背景业务的理解去看看数据长什么样子、数据是否和描述相符、数据包含哪些信息、数据质量如何等。首先,要对数据有⼀个清晰的认知,主要是宽表中各个字段的取值含义、范围和数据结构等。然后更深层次的是要结合标签分析特征的分布状态、训练集与测试集的同分布情况、特征之间的业务关联以及隐含信息表征等。

数据探索是承上启下的⼀步,可以帮助参赛者更好地理解问题建模,并为接下来将进行的特征工程做好准备。

1.3 特征工程

特征工程(Feature Engineering)是机器学习领域⼀个重要的概念,无论是在竞赛中还是在实际应用中,特征工程都是花费时间最多的模块,会占去建模者的大部分精力。

1.4 模型训练

选择模型进行训练并进行参数调优。

1.5 模型融合

在竞赛当中,不同参赛者之间的个人差异很大,涉及问题建模、特征工程、模型训练等流程时都会有差异,这就导致不同参赛者之间的方案存在着巨大差异,而差异带来的模型融合效果却是极佳的,并且差异越大,效果提升就越大。

2. 竞赛类型

2.1 数据类型

人工智能领域大致可以分为计算机视觉(CV)、自然语言处理(NLP)和数据挖掘(DM)三个主要方向。

在传统宽表的数据中,通常匹配有样本的唯⼀ id 索引以及特征列。根据含义,特征又可分为类别特征(如用户性别)和数值特征(如年龄、身高、体重等)。

2.2 任务类型

任务类型按照问题类型大致可分为分类以及回归。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值