随机抽取。

有时候我们只需要数据集中的一部分,并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。随机抽样,是指随机从数据中,按照一定的行数或者比例抽取数据。

import numpy as np
import pandas as pd

test_dict = {'id':[1,2,3,4,5,6],
       'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace']
       }
test_df = pd.DataFrame(test_dict)


# 按照个数抽样
sam_df = test_df.sample(n=2)

# 按照比例抽样
sam_df2 = test_df.sample(frac=0.5)

# 可回放的随机抽样 
sam_df3 = test_df.sample(n=8,replace=True)

test_dict2 = {'id':[1,2,3,4,5,6,7,8,9],
       'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace','Torres','Villa','Van Persi'],
       'team':['Man City','Arsenal','Man City','Arsenal','Man City','Arsenal','Arsenal','Arsenal','Man City']      
       }
test_df2 = pd.DataFrame(test_dict2)

# 分组抽样,按照team字段分组
gbr = test_df2.groupby('team')
gbr.groups

type_train = {'Man City':1,'Arsenal':2}

def teamSampling(group,typicalNDict):
    name = group.name
    n = typicalNDict[name]
    return group.sample(n=n)

result_train = gbr.apply(teamSampling,type_train)
result_train


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值