train_test_split, 关于随机抽样和分层抽样

最新推荐文章于 2023-02-08 15:00:29 发布

weixin_30699831

最新推荐文章于 2023-02-08 15:00:29 发布

阅读量2.3k

点赞数 2

文章标签：数据结构与算法 python 人工智能

原文链接：http://www.cnblogs.com/fengff/p/10008363.html

版权

在数据集划分时，选择随机抽样或分层抽样至关重要。当数据量足够大时，随机抽样通常可行，但若数据集小，可能导致样本偏差。以性别分层的抽样调查为例，应保持与总体相似的比例以避免结果偏差。sklearn的train_test_split提供了stratify参数实现分层抽样，确保关键特征在训练集和测试集中分布一致，提高模型预测准确性。

摘要由CSDN通过智能技术生成

https://zhuanlan.zhihu.com/p/49991313

在将样本数据分成训练集和测试集的时候，应当谨慎地考虑一下是采用纯随机抽样，还是分层抽样。

通常，数据集如果足够大，纯随机抽样的方式，将样本数据分成两个子集是没有太大的问题。

如果不是，纯随机抽样肯可能会导致抽样数据偏差，影响训练效果，降低预测模型预测的准确性。

设想调查公司需要做1000份抽样调查，调查的问题和性别可能有较大的相关性。如果想让调查结果代表全国男性和女性对这些问题的看法，假设全国人口男女比例大致为60：40，那么在1000份问卷也应当尽量保持男女比例达到同样的比例，即参加问卷调查的男女数差不多是600和400。

这个就是分层抽样。

如果参加问卷的男女数比例很不一样，比如女性占到了60%或更多，那么调查结伦就会出现重大偏差。

使用sklearn.model_selection.train_test_split，参数stratify即用来指定按照某一特征进行分层抽样，生成训练集和测试集。

看一下随机抽样和分层抽样时，按照某一特征的取值，在训练集的占比情况。

income_count = housing['income_cat'].value_counts

最低0.47元/天解锁文章

weixin_30699831

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
train_test_split, 关于随机抽样和分层抽样

https://zhuanlan.zhihu.com/p/49991313在将样本数据分成训练集和测试集的时候，应当谨慎地考虑一下是采用纯随机抽样，还是分层抽样。通常，数据集如果足够大，纯随机抽样的方式，将样本数据分成两个子集是没有太大的问题。如果不是，纯随机抽样肯可能会导致抽样数据偏差，影响训练效果，降低预测模型预测的准确性。设想调查公司需要做1000份抽样调查，调查的问题和性别...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。