kaggle笔记 2019数据科学碗Data Science Bowl 高分总结

文章目录


这次比赛的重点,在于过拟合问题和模型的泛化能力。
我就是疏忽了这一点,然后在Public leaderboard上是13名,然后最后成绩上,调到800多名。

7th总结

  • final models was an emsemble: 0.3LGB, 0.3 CATB, 0.4NN
  • 模型总类要多,这三种对于大数据最常见
  • 20 fold-bagging for all models, NN additionally averaging across 3 seeds
  • fold 数加多,我自己只使用了5 fold,然后NN使用3个随机种子,这样也能增加泛化能力
  • 这句话我对自己说:不要太注意public leaderboard的成绩,如果这个这个比赛的波动大。
  • 作者预测孩子智力的时候,参考了一个文献:On the Measure of Intelligence
    (1)经历。一个孩子在不同的活动所花费的时间。我猜测这个应该就建立了好几个特征。
    (2)准确度。孩子在他的准确率。
  • 作者做的特征筛选,从150个特征到50个特征。作者对会去掉一个特征,然后对比cv score,然后做150次
  • 然后去掉能带来小于0.0001进步的特征,作者将他们视为noise
  • 通过这次比赛,我发现,特征越多,基本上会使得本地分数提高,但是有的提高的很小,作者将这种当作noise
  • 模型越多,泛化能力越强,特征越多,很可能过拟合
  • NN模型使用了Attention层。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值