DataFrame中按某字段分类并且取该分类随机数量的数据

Damien_J

于 2023-08-01 15:50:14 发布

阅读量1k

点赞数

分类专栏： Python 文章标签：分类 python 数据挖掘

本文链接：https://blog.csdn.net/Damien_J_Scott/article/details/132043933

版权

Python 专栏收录该内容

83 篇文章 0 订阅

订阅专栏

最近有个需求，把某个df中的数据，按照特定字段分类，并且每个分类只取随机数量数据，这个随机数量需要有范围限制。写出来记录下。

def randomCutData(self, df, startNum):
     grouped = df.groupby('classify_label')
     df_sampled = pd.DataFrame()
     for _, group in grouped:
         num_samples = len(group)
         num_random_samples = random.randint(min(startNum, num_samples),num_samples)
         sampled_group = group.sample(n=num_random_samples, random_state=42)
         df_sampled = pd.concat([df_sampled, sampled_group])
     return df_sampled.copy()

self.randomCutData(df, 50).copy().reset_index(drop=True).to_csv('xxxxx.csv', index=False)

这里面的startNum是起始数量，如果该分类都没达到起始数量的话，就直接取该类的全部数据。