竞赛算法精讲-CSDN博客

本文链接：https://blog.csdn.net/qq_41375318/article/details/107744453

$竞赛教程$

1.什么是误差和过拟合
2.Loss设计
3.多折交叉验证
4.EarlyStop
5.本地评测函数
6.
7.
8.
9.
10.

1.什么是误差和过拟合

对于分类任务我们可以用分类错误率来衡量模型的性能，具体来说模型在训练集上的误差成为训练误差，模型在新样本（测试集）上的误差成为泛化误差，评估机器学习应该使用泛化误差进行评价。

在模型的训练过程中，模型只能利用训练数据来进行训练，模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好，模型就会记住训练样本的细节，导致模型在测试集的泛化效果较差，这种现象称为过拟合（Overfitting）。与过拟合相对应的是欠拟合（Underfitting），即模型在训练集上的拟合效果较差。

2.Loss设计

Loss的设计要逼近比赛的得分评价标准

3.多折交叉验证

多折模型的集成精度效益往往大于单折

4.EarlyStop

提前保存最优模型，防止算力浪费等。

5.本地评测函数

本地评测函数要尽量逼近比赛要求，最好能够一样。

额外补充

平台名	链接
Kaggle	www.kaggle.com
DrivenData	www.drivendata.org
Colalab	competitions.codalab.org
CrowdAI	www.crowdai.org
天池	tianchi.aliyun.com
点石	dianshi.baidu.com/competitio
JData	jdata.jd.com
DataCastle	www.pkbigdata.com
DataFountain	www.datafountain.cn
Biendata	biendata.com
科赛	www.kesci.com

赛题类型	实例
按照赛题的任务可以将赛题类型分为三类
分类赛题	比赛的标签是类别，任务是分类问题。例如预测用户是否违，图像分类;·
回归赛题	比赛的标签是数值，任务是回归问题。例如预测用户的贷款金额，PM2.5预测
时序赛题	比赛的标签与时间相关，任务是时序问题。例如商铺销量预测，汽车流量预测
赛题也可以根据数据类型分为两类:
结构化数据	数据已表格形式进行表示，例如表格数据
非结构化数据	数据已非结构化进行表示，例如文本数据或者图像数据
按领域分类
CV	计算机视觉
NLP	自然语言处理