竞赛教程

竞 赛 教 程 竞赛教程

1.什么是误差和过拟合

对于分类任务我们可以用分类错误率来衡量模型的性能,具体来说模型在训练集上的误差成为训练误差,模型在新样本(测试集)上的误差成为泛化误差,评估机器学习应该使用泛化误差进行评价。

在模型的训练过程中,模型只能利用训练数据来进行训练,模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好,模型就会记住训练样本的细节,导致模型在测试集的泛化效果较差,这种现象称为过拟合(Overfitting)。与过拟合相对应的是欠拟合(Underfitting),即模型在训练集上的拟合效果较差。

2.Loss设计

Loss的设计要逼近比赛的得分评价标准

3.多折交叉验证

多折模型的集成精度效益往往大于单折

4.EarlyStop

提前保存最优模型,防止算力浪费等。

5.本地评测函数

本地评测函数要尽量逼近比赛要求,最好能够一样。

额外补充

平台名链接
Kagglewww.kaggle.com
DrivenDatawww.drivendata.org
Colalabcompetitions.codalab.org
CrowdAIwww.crowdai.org
天池tianchi.aliyun.com
点石dianshi.baidu.com/competitio
JDatajdata.jd.com
DataCastlewww.pkbigdata.com
DataFountainwww.datafountain.cn
Biendatabiendata.com
科赛www.kesci.com

赛题类型实例
按照赛题的任务可以将赛题类型分为三类
分类赛题比赛的标签是类别,任务是分类问题。例如预测用户是否违,图像分类;·
回归赛题比赛的标签是数值,任务是回归问题。例如预测用户的贷款金额,PM2.5预测
时序赛题比赛的标签与时间相关,任务是时序问题。例如商铺销量预测,汽车流量预测
赛题也可以根据数据类型分为两类:
结构化数据数据已表格形式进行表示,例如表格数据
非结构化数据数据已非结构化进行表示,例如文本数据或者图像数据
按领域分类
CV计算机视觉
NLP自然语言处理
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值