sklearn 样本不均衡问题

最新推荐文章于 2022-12-15 16:54:05 发布

soda東風

最新推荐文章于 2022-12-15 16:54:05 发布

阅读量4.8k

点赞数

分类专栏： sklearn 文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42568012/article/details/105141281

版权

样本不均衡会导致模型对少数类的特征学习不足，易过拟合，影响模型的准确性和鲁棒性。过采样通过增加少数类样本，如SMOTE算法，欠采样则通过减少多数类样本，但可能丢失信息。这两种方法常用于大数据的不平衡问题。

摘要由CSDN通过智能技术生成

过采样

欠采样

样本分布不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖于有限的数据样本而导致过拟合的问题，当模型应用到新的数据上时，模型的准确性和鲁棒性将很差。

抽样是解决样本分布不均衡相对简单且常用的方法，包括过采样和欠采样两种。过采样和欠采样更适合大数据分布不均衡的情况，尤其是第一种（过采样）方法应用更加广泛。

过采样

增加分类中少数类样本的数量来实现样本均衡，最直接的方法是简单复制少数类样本形成多条记录，这种方法的缺点是如果样本特征少而可能导致过拟合的问题；经过改进的过抽样方法通过在少数类中加入随机噪声、干扰数据或通过一定规则产生新的合成样本，例如SMOTE算法。


from imblearn.over_sampling import RandomOverSampler  # 随机重复采样
from imblearn.over_sampling import SMOTE  # 选取少数类样本插值采样
from imblearn.over_sampling import BorderlineSMOTE  # 边界类样本采样
from imblearn.over_sampling import ADASYN  # 自适应合成抽样

ros = RandomOverSampler(sampling_strategy={0: 700,1:200,2:150 },random_state=0)
X_resampled, y_resampled = ros.fit_sample(

最低0.47元/天解锁文章

soda東風

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
sklearn 样本不均衡问题

目录过采样欠采样样本分布不均衡将导致样本量少的分类所包含的特征过少，并很难从中提取规律；即使得到分类模型，也容易产生过度依赖于有限的数据样本而导致过拟合的问题，当模型应用到新的数据上时，模型的准确性和鲁棒性将很差。抽样是解决样本分布不均衡相对简单且常用的方法，包括过采样和欠采样两种。过采样和欠采样更适合大数据分布不均衡的情况，尤其是第一种（过采样）方法应用更加广泛。...
复制链接

扫一扫

专栏目录