kaggle笔记 2019数据科学碗Data Science Bowl 高分总结

最新推荐文章于 2022-05-29 14:45:58 发布

微信公众号[机器学习炼丹术]

最新推荐文章于 2022-05-29 14:45:58 发布

阅读量1.3k

点赞数 1

分类专栏： Kaggle实战笔记深度学习不得不了解的技巧文章标签：机器学习人工智能深度学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34107425/article/details/104081538

版权

深度学习不得不了解的技巧同时被 2 个专栏收录

76 篇文章 30 订阅

订阅专栏

Kaggle实战笔记

28 篇文章 18 订阅

订阅专栏

文章目录

7th总结

这次比赛的重点，在于过拟合问题和模型的泛化能力。
我就是疏忽了这一点，然后在Public leaderboard上是13名，然后最后成绩上，调到800多名。

7th总结

final models was an emsemble: 0.3LGB, 0.3 CATB, 0.4NN
模型总类要多，这三种对于大数据最常见
20 fold-bagging for all models, NN additionally averaging across 3 seeds
fold 数加多，我自己只使用了5 fold，然后NN使用3个随机种子，这样也能增加泛化能力
这句话我对自己说：不要太注意public leaderboard的成绩，如果这个这个比赛的波动大。
作者预测孩子智力的时候，参考了一个文献：On the Measure of Intelligence
（1）经历。一个孩子在不同的活动所花费的时间。我猜测这个应该就建立了好几个特征。
（2）准确度。孩子在他的准确率。
作者做的特征筛选，从150个特征到50个特征。作者对会去掉一个特征，然后对比cv score，然后做150次
然后去掉能带来小于0.0001进步的特征，作者将他们视为noise
通过这次比赛，我发现，特征越多，基本上会使得本地分数提高，但是有的提高的很小，作者将这种当作noise
模型越多，泛化能力越强，特征越多，很可能过拟合
NN模型使用了Attention层。

微信公众号[机器学习炼丹术]

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。