Python pandas 分层抽样 超简洁

这段时间在打一个机器学习比赛,遇到分层抽样的需求。在网上查了一下,虽然也有前辈用pandas写出来过,但代码有很多冗余,于是我又重写了一个超简洁的版本。注释应该还算清晰,各位可以自取。用得好可以给个赞,感谢!

sample_data:原始数据,示例中‘label’列是分层依据
train_proportion:训练集抽取比例,默认70%
seed:随机抽取与打乱顺序时用到的随机数种子,默认为None。当输入一个数字的时候,输出的样本及样本顺序都会固定。

返回的是训练样本和测试样本,两个样本不重叠,且合在一起包含了全部样本。

def stratified_sampling(sample_data, train_proportion=0.7, seed=None):
    # 分层随机选取训练样本
    train_sample = sample_data.groupby('label').apply(lambda x: x.sample(frac=train_proportion, random_state=seed))
    # 上一步得到的样本是按照label聚在一起的,所以这一步需要打乱顺序
    train_sample = train_sample.sample(frac=1, random_state=seed)
    train_sample.reset_index(drop=True, inplace=True)
    # 和原始数据拼接起来,删掉重复值,从而获得测试数据
    test_sample = pd.concat([sample_data, train_sample]).drop_duplicates(keep=False)
    # 同样对抽取出的测试样本打乱顺序
    test_sample = test_sample.sample(frac=1, random_state=seed)
    test_sample.reset_index(drop=True, inplace=True)
    return train_sample, test_sample

然而作者写完这段代码才发现sklearn.model_selection里面有train_test_split,可以完全实现上述效果。不过还是需要reset_index

data_train, data_test = train_test_split(data_label, test_size=0.3, random_state=0, stratify=data_label.label)
  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值