随机抽取。

努力的小航子

已于 2022-02-25 10:22:03 修改

阅读量1.1k

点赞数

分类专栏： Python 文章标签：机器学习 python 逻辑回归

于 2022-02-24 17:09:01 首次发布

原文链接：https://blog.csdn.net/leewe7/article/details/108983852?ops_request_misc=&request_id=&biz_id=102&utm_term=python%E6%80%8E%E4%B9%88%E9%9A%8F%E6%9C%BA%E6%8A%BD%E5%8F%96%E6%95%B0%E6%8D%AE&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

有时候我们只需要数据集中的一部分，并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。随机抽样，是指随机从数据中，按照一定的行数或者比例抽取数据。

import numpy as np
import pandas as pd

test_dict = {'id':[1,2,3,4,5,6],
       'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace']
       }
test_df = pd.DataFrame(test_dict)


# 按照个数抽样
sam_df = test_df.sample(n=2)

# 按照比例抽样
sam_df2 = test_df.sample(frac=0.5)

# 可回放的随机抽样 
sam_df3 = test_df.sample(n=8,replace=True)

test_dict2 = {'id':[1,2,3,4,5,6,7,8,9],
       'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace','Torres','Villa','Van Persi'],
       'team':['Man City','Arsenal','Man City','Arsenal','Man City','Arsenal','Arsenal','Arsenal','Man City']      
       }
test_df2 = pd.DataFrame(test_dict2)

# 分组抽样，按照team字段分组
gbr = test_df2.groupby('team')
gbr.groups

type_train = {'Man City':1,'Arsenal':2}

def teamSampling(group,typicalNDict):
    name = group.name
    n = typicalNDict[name]
    return group.sample(n=n)

result_train = gbr.apply(teamSampling,type_train)
result_train

努力的小航子

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
随机抽取。

有时候我们只需要数据集中的一部分，并不需要全部的数据。这个时候我们就要对数据集进行随机的抽样。随机抽样，是指随机从数据中，按照一定的行数或者比例抽取数据。import numpy as npimport pandas as pdtest_dict = {'id':[1,2,3,4,5,6], 'name':['Alice','Bob','Kaka','Raul','Fabregas','Grace'] }test_df = pd.DataFrame(test_dict)
复制链接

扫一扫