竞 赛 教 程 竞赛教程 竞赛教程
1.什么是误差和过拟合
对于分类任务我们可以用分类错误率来衡量模型的性能,具体来说模型在训练集上的误差成为训练误差,模型在新样本(测试集)上的误差成为泛化误差,评估机器学习应该使用泛化误差进行评价。
在模型的训练过程中,模型只能利用训练数据来进行训练,模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好,模型就会记住训练样本的细节,导致模型在测试集的泛化效果较差,这种现象称为过拟合(Overfitting)。与过拟合相对应的是欠拟合(Underfitting),即模型在训练集上的拟合效果较差。
2.Loss设计
Loss的设计要逼近比赛的得分评价标准
3.多折交叉验证
多折模型的集成精度效益往往大于单折
4.EarlyStop
提前保存最优模型,防止算力浪费等。
5.本地评测函数
本地评测函数要尽量逼近比赛要求,最好能够一样。
额外补充
平台名 | 链接 |
---|---|
Kaggle | www.kaggle.com |
DrivenData | www.drivendata.org |
Colalab | competitions.codalab.org |
CrowdAI | www.crowdai.org |
天池 | tianchi.aliyun.com |
点石 | dianshi.baidu.com/competitio |
JData | jdata.jd.com |
DataCastle | www.pkbigdata.com |
DataFountain | www.datafountain.cn |
Biendata | biendata.com |
科赛 | www.kesci.com |
赛题类型 | 实例 |
---|---|
按照赛题的任务可以将赛题类型分为三类 | |
分类赛题 | 比赛的标签是类别,任务是分类问题。例如预测用户是否违,图像分类;· |
回归赛题 | 比赛的标签是数值,任务是回归问题。例如预测用户的贷款金额,PM2.5预测 |
时序赛题 | 比赛的标签与时间相关,任务是时序问题。例如商铺销量预测,汽车流量预测 |
赛题也可以根据数据类型分为两类: | |
结构化数据 | 数据已表格形式进行表示,例如表格数据 |
非结构化数据 | 数据已非结构化进行表示,例如文本数据或者图像数据 |
按领域分类 | |
CV | 计算机视觉 |
NLP | 自然语言处理 |