kaggle学习之三——分析属性

最新推荐文章于 2023-09-14 17:08:57 发布

看不见我呀

最新推荐文章于 2023-09-14 17:08:57 发布

阅读量353

点赞数

分类专栏： kaggle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/81387326

版权

kaggle 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

1.partial dependence plot这个主要用来分析特征和目标之间的关系

2.pipelines:用这个，可以让你的代码看起来很优雅。

Take your modeling code and convert it to use pipelines. For now, you'll need to do one-hot encoding of categorical variables outside of the pipeline (i.e. before putting the data in the pipeline).

3.cross_validation:

区别于train_test_split，交叉验证集用于小数据集获取好的结果（重复取数据）。对于大数据集，通常考虑分离数据就可以了，不要重复了。

小数据集，需要验证每个数据，因为小的数据集容易引入很大的噪声；但是对于大数据集，其不太容易引入太多的噪声。

4.数据泄露的问题

数据泄露就是在测试机上效果还可以，但是在真实情况下，分分钟钟就跪了，而且跪的很严重。

常见的原因不好分析：

目前知道的有，因为一些粗心导致的错误，例如对全部数据进行预处理，然后测试model，效果好。核心是，训练中使用的测试集的一些特性，所以导致测试效果还不错。此处可以考虑pipeline来避免；

还有一种就是逆天的准确率。这种常常是违背常理的一些东西。例如，依据是否吃抗生素来确定是否有肺炎，依据信用卡的消费情况来预测是否有信用卡等等。针对这种情况，要有针对性的剔除一些特征。因为，当你判断是否给这个办理信用卡时，你不能问他你的信用卡的消费记录给我看一下。

看不见我呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。