深度学习之样本均衡问题

最新推荐文章于 2024-07-08 16:21:27 发布

RyanC3

最新推荐文章于 2024-07-08 16:21:27 发布

阅读量3.6k

点赞数 4

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/u012655441/article/details/108269899

版权

针对自然界的样本中，对于分类任务而言，不可能取到均衡样本。遇到一些某一类标签占比太大，标签矩阵比较稀疏的时候，我们需要对样本处理才能丢给模型进行训练，训练出来的模型具有更好的拟合能力和泛化能力。

针对上述问题，先对其进行定义，如果将类别不均衡的样本扔给模型进行学习，那么模型会更好地学到占比较大的样本，但是也要思考一下，类别均衡的数据集是不是一定更好？这个无法证明，只能说类别均衡的样本对模型更加友好。

解决样本不均衡的问题，我们第一反应就是用简单粗暴的方法：采样。假设目前正样本占比10%，负样本占比90%。那么我们可以对正样本进行过采样，可以将正样本的数据进行复制粘贴，针对图像任务，可以对正样本进行旋转，翻转等，增加正样本的占比。但是这样会有弊端就是训练的时候模型看到过这类样本太多了，记住这类“考题”，以至于考题进行变换也模型也无法很好解决，这时候就会出现过拟合。因此这种方法不是最优解，慎用。

第二种方法可以使用SMOTE方法，这种方法是基于采样的思想，但是它很好地处理过拟合现象。思想是随机选取一个样本，然后利用聚类算法（KNN）选择与其相近的样本，然后取两样本的中值或者均值作为新样本。这种方法在一定的程度上降低了过拟合的风险。

第三种方法：模型融合。思想类似于batch train的思想。将负样本平均拆分成与正样本数量相同的等分。然后每一份与正样本组合成一个小训练集。这些小训练集就是样本占比均衡的，接着训练模型，训练得到的模型s融合通过加权累加形成一个分类器，对测试集进行预测。这种方法比较高效。

第四种阈值调整。一般而言会以0.5作为阈值来划分正负样本。但是对于类别不平衡的样本可以通过调整这个阈值进行处理。另外可以在计算每个样本的loss时，通过为正样本增加权重的方式，来优化样本不平衡问题。该方法原理跟划分阈值类似，正样本对权重的更新会使模型输出尽可能偏向于1，但是正样本太少，所以一方面可以降低划分为正样本的阈值，另一方面则可以在计算loss时，增加正样本权重，从而增大正样本对模型参数的更新量，提高模型输出为1的概率。

RyanC3

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
深度学习之样本均衡问题

针对自然界的样本中，对于分类任务而言，不可能取到均衡样本。遇到一些某一类标签占比太大，标签矩阵比较稀疏的时候，我们需要对样本处理才能丢给模型进行训练，训练出来的模型具有更好的拟合能力和泛化能力。针对上述问题，先对其进行定义，如果将类别不均衡的样本扔给模型进行学习，那么模型会更好地学到占比较大的样本，但是也要思考一下，类别均衡的数据集是不是一定更好？这个无法证明，只能说类别均衡的样本对模型更加友好。解决样本不均衡的问题，我们第一反应就是用简单粗暴的方法：采...
复制链接

扫一扫