样本不均衡解决方法-计算class_weight

最新推荐文章于 2023-10-26 16:47:05 发布

人工智能（篮球方向）

最新推荐文章于 2023-10-26 16:47:05 发布

阅读量5.7k

点赞数

分类专栏：技术细节总结

本文链接：https://blog.csdn.net/weixin_42386003/article/details/108988555

版权

技术细节总结专栏收录该内容

11 篇文章 1 订阅

订阅专栏

样本不均衡的处理方法：

这里介绍2.1:

直接先上代码：

from sklearn.utils import class_weight
import pandas as pd

train_df = pd.read_csv("input/train.csv")
x_train = train_df['Image']
y_train = train_df['Class']

class_weight = class_weight.compute_class_weight('balanced',
                                                 np.unique(y_train),
                                                 y_train)
cw = dict(enumerate(class_weight))

参数类型为字典，将不同的类别映射为不同的权值，该参数用来在训练过程中调整损失函数（只能用于训练）。该参数在处理非平衡的训练数据（某些类的训练样本数很少）时，可以使得损失函数对样本数不足的数据更加关注。

原理解析：

compute_class_weight这个函数的作用是对于输入的样本，平衡类别之间的权重，下面写段测试代码测试这个函数：

# coding:utf-8
 
from sklearn.utils.class_weight import compute_class_weight
 
class_weight = 'balanced'
label = [0] * 9 + [1]*1 + [2, 2]
print(label) # [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2]
classes=[0, 1, 2]
weight = compute_class_weight(class_weight, classes, label)
print(weight) #[ 0.44444444 4.         2.        ]
print(.44444444 * 9) # 3.99999996
print(4 * 1) # 4
print(2 * 2) # 4

如上图所示，可以看到这个函数把样本的平衡后的权重乘积为4，每个类别均如此。

计算公式：

# weight_ = n_samples / (n_classes * np.bincount(y))``
# 这里
# n_samples为16
# n_classes为3
# np.bincount(y)实际上就是每个类别的样本数量

人工智能（篮球方向）

关注

0
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
样本不均衡解决方法-计算class_weight

样本不均衡的处理方法：1. 传统方法 1.1 随机过采样 1.2 欠采样 1.3 数据合成 2. 利用keras中的fit方法里的参数 2.1 利用sklearn.utils.class_weight来计算权重 2.2 sample_weight 这里介绍2.1:直接先上代码：from sklearn.utils import class_weightimport pandas as pdtrain_df = pd.read_csv("input/tr.
复制链接

扫一扫