Kaggle X FastAI系列 1 --titanic(改)

本文介绍了作者在Kaggle Titanic比赛中遇到的过拟合问题及其解决方案。通过调整FastAI的CostFunction参数,发现gamma在2-6之间的效果较好,有效减少了过拟合。采用K折交叉验证和单样本交叉验证方法,探索模型性能,最终在交叉验证中取得了0.75-0.8的accuracy。作者计划尝试随机森林和one-hot编码以进一步提升模型准确性。
摘要由CSDN通过智能技术生成

前情概要

之前的第一版直接使用fastai提供的方法,过拟合问题比较严重,所以寻求了一下改进方法。

CostFunction

经过几次测试,将CostFunction改为了

loss_func=FocalLossFlat(gamma=5)

从fastai官方文档中的CostFunction中看到了它,论文没有看,体感这个gamma应该是个超参数。经过测试gamma的值越大对w和b的惩罚越大,当gamma的值取10左右时产生梯度消失。gamma的默认值为1,针对这个数据集gamma取2-6的效果比较好,有效降低了过拟合的程度。

取一个10epoch的结果为例

valid_loss略高于train_loss,accuracy在直接训练的情况下可以达到0.8左右。

最好成绩(20%测试集):

  

K折交叉验证

取5次重复每次随机取80%作训练集,80%作测试集。每个leaner跑100epoch。

由于尚不清楚fastai中learner训练好的参数如何保存为矩阵等形式,所以使用每个learner单独预测并把结果取平均。

最好成绩:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值