python 实现重采样保证不同类别数量一致

CHERISHGF

于 2024-08-09 11:45:53 发布

阅读量31

点赞数 1

分类专栏： python 学习笔记文章标签： python 开发语言 scikit-learn

本文链接：https://blog.csdn.net/CHERISHGF/article/details/141058043

版权

python 学习笔记专栏收录该内容

51 篇文章 1 订阅

订阅专栏

对数据集中某一列数据进行重采样，使得不同类别的数量一致

import pandas as pd
from sklearn.utils import resample

min_n = df['Pclass'].value_counts().min()
categories = df['Pclass'].unique()

# 为每个类别进行重采样，使数量一致
balanced_data = []
for category in categories:
    category_data = df[df['Pclass'] == category]
    balanced_category_data = resample(category_data, replace=False, n_samples=min_n, random_state=42)
    balanced_data.append(balanced_category_data)

# 合并采样后的数据
balanced_df = pd.concat(balanced_data)