[PyTorch]方法1(数据集样本不均衡)：通过“正负样本”的惩罚权重

最新推荐文章于 2024-04-17 19:23:21 发布

东东记笔记

最新推荐文章于 2024-04-17 19:23:21 发布

阅读量869

点赞数

文章标签： pytorch 深度学习机器学习

本文链接：https://blog.csdn.net/lidongfang6688/article/details/129928644

版权

"正负样本"惩罚权重

在分类问题中，样本通常可以分为“正样本”和“负样本”两类。例如，在二分类问题中，“正样本”通常代表正类，而“负样本”代表负类。

在样本不平衡的情况下，模型可能会倾向于预测数量更多的类别，从而导致模型性能下降。为了解决这个问题，可以使用“正负样本”的惩罚权重来平衡不同类别的样本数量，以便更好地训练模型。

具体来说，惩罚权重通常用于调整损失函数中每个样本的权重。对于数量较少的类别，我们可以增加其权重，使其在训练中得到更多的关注。而对于数量较多的类别，我们可以降低其权重，以减少其对模型训练的影响。

例如，在二分类问题中，我们可以将“正样本”的权重设置为较高的值，将“负样本”的权重设置为较低的值。这样可以使模型更加关注正类，从而提高模型在不平衡数据集上的性能。

在多分类问题中，我们可以将每个类别的权重设置为其相对于其他类别的样本数量的倒数，以平衡样本分布。这样可以使模型更加关注数量较少的类别，从而提高模型性能。

总之，“正负样本”的惩罚权重是一种解决不平衡数据集问题的常用方法，可以帮助模型更好地处理不同类别之间的样本数量差异。

通过“简单加权法”计算权重

简单加权法

简单加权法是一种简单但常用的方法，可以通过计算每个类别的样本数量比例，然后使用该比例的倒数作为该类别的权重，以平衡样本分布。

例如，如果我们有一个二分类问题，其中正类样本数量为1000，负类样本数量为10000，则我们可以将正类的权重设置为10，负类的权重设置为1。

应用：多分类任务中权重的计算

#计算各类别的权重
class_weights = torch.zeros(14)
class_counts = torch.tensor([8090,1727,2335,1278,5603,1220,818,110,8256,2049,2125,836,238,1547], dtype=torch.float32)
total_counts = torch.sum(class_counts)

for i in range(14):
    class_weight = 1.0 / (class_counts[i] / total_counts)
    class_weights[i] = class_weight
#使用
loss1 = nn.CrossEntropyLoss(weight=class_weights)