不平衡二分类训练数据处理

最新推荐文章于 2023-06-05 14:07:59 发布

南师大蒜阿熏呀

最新推荐文章于 2023-06-05 14:07:59 发布

阅读量278

点赞数

分类专栏：数据挖掘文章标签：分类 python 数据挖掘

本文链接：https://blog.csdn.net/THREEFUCT/article/details/130824144

版权

数据挖掘专栏收录该内容

7 篇文章

订阅专栏

该文介绍了如何在Python中使用Pandas处理不平衡数据集的问题。通过上采样，增加少数类别的样本以平衡数据，以及下采样，减少多数类别的样本，来改善模型训练。这两种方法分别适用于数据集大小不同的情况，以优化训练成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先生成不平衡数据集

import pandas as pd
df = pd.DataFrame([0,0,0,0,0,0,0,0,0,1,1])
df.columns = ['label']
df.value_counts()

在这里插入图片描述

上采样方法，根据最多的数据集将少的数据集进行填充和打乱，数据集少的情况考虑，数据集太大会导致训练成本的提高

import warnings 
warnings.filterwarnings('ignore')

# 统计每个类别的样本数量
class_counts = newtotal_df['目标值'].value_counts()

# 取出样本数量最多的类别
max_class_count = class_counts.max()

# 对每个类别进行上采样
balanced_data = pd.concat([
    newtotal_df[newtotal_df['目标值'] == label].sample(max_class_count, replace=True)
    for label in class_counts.index
])

# 将数据打乱
balanced_data2 = balanced_data.sample(frac=1)

结果如下
在这里插入图片描述

下采样

根据最少的值进行的取样办法，数据集多的情况下考虑，太少不建议使用

import warnings 
warnings.filterwarnings('ignore')

# 统计每个类别的样本数量
class_counts = newtotal_df['目标值'].value_counts()

# 取出样本数量最少的类别
min_class_count = class_counts.min()

# 对每个类别进行上采样
balanced_data = pd.concat([
    newtotal_df[newtotal_df['目标值'] == label].sample(min_class_count , replace=True)
    for label in class_counts.index
])

# 将数据打乱
balanced_data2 = balanced_data.sample(frac=1)