小菜鸟对“数据不均衡如何处理？”的认识

最新推荐文章于 2021-11-13 09:59:33 发布

hzz_94

最新推荐文章于 2021-11-13 09:59:33 发布

阅读量229

点赞数

分类专栏： DL

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40510799/article/details/89045213

版权

DL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

注：小众样本☞样本量少的一类；大众样本☞样本量多的一类

在学术研究时，很多算法都有一个基本假设，那就是数据分布是均匀的。但是当我们把这些算法直接应用到实际问题当中，大多数情况下都无法取得理想的结果，这是由于实际生活中很难遇到数据分布均匀的情况。

处理数据不均衡通常有以下几种方法：

1、重组数据：

①过采样（oversampling）：复制小众样本，使它和大众样本差不多数量。

缺点：数据量大了，训练模型的时间开销多了；并且不能简单地对初始较少类样本进行重复采样，否则会招致严重的过拟合。

②欠采样（undersampling）：删除部分大众样本，使它和小众样本数据量一致。

缺点：随机的丢弃大众样本，可能会丢失一些重要的信息。

2、数据合成（比如SMOTE算法）：

Step1：首先确定大众样本是小众样本的几倍（K倍），即：小众样本要生成的数量是现在小众样本数量的多少倍

Step2：对于小众样本中的每一个数据，使用欧式距离找到与其最近的K个同类样本（K近邻问题）

Step3：对于每个小众样本与其K近邻的K个小众样本，我们分别计算其“中间”样例作为新的小众样本，计算公式如下：

$x_{new} = x+rand(0,1)*(\widetilde{x}-x)$

3、修改算法：

在所有方法中，最具有创造力的方法莫过于修改算法了。若网络中的最后一层使用的是Sigmoid函数，它会有一个预测的门槛，如果低于门槛，预测结果为一类；如果高于门槛，预测结果为另一类。不过现在我们以数据不平衡为训练背景，此时就需要我们调解一下门槛的位置，使得门槛更加偏向于大众样本，这样，只有数据非常准确的情况下，模型才会预测为大众样本。

Eg：我们定义一个网络，想要使用该网络判断给定图片是猫?类还是狗?类。当数据均衡时，我们最后一层可以使用sigmoid激活函数，定义输出值大于0.5时为?，小于等于0.5时为?；当数据不均衡时（假设?图多于?图），我们最后一层可以使用sigmoid激活函数，定义输出大于0.8时为?，小于等于0.8时为?

4、使用其他的机器学习方法：

eg：神经网络对不均衡数据会变得束手无策，但是决策树不会受到不均衡数据的影响。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小菜鸟对“数据不均衡如何处理？”的认识

注：小众样本☞样本量少的一类；大众样本☞样本量多的一类在学术研究时，很多算法都有一个基本假设，那就是数据分布是均匀的。但是当我们把这些算法直接应用到实际问题当中，大多数情况下都无法取得理想的结果，这是由于实际生活中很难遇到数据分布均匀的情况。处理数据不均衡通常有以下几种方法：1、重组数据：①过采样（oversampling）：复制小众样本，使它和大众样本差不多数量。...
复制链接

扫一扫

专栏目录

hzz_94 CSDN认证博客专家 CSDN认证企业博客

码龄7年

科大讯飞股份有限公司

63: 原创

33万+: 周排名

185万+: 总排名

6万+: 访问

: 等级

1298: 积分

8: 粉丝

22: 获赞

20: 评论

68: 收藏

私信

关注

热门文章

分类专栏

DL 4篇
Python 55篇

最新评论

接雨水(python)
weixin_45559315: [code=python] def start(list=[]): length=len(list) if length<2: #条件不成立，直接退出 return for i in range(length): lmax=0 for i1 in range(i,0,-1): if lmax<l[i1]: lmax=l[i1] rmax=0 for i2 in range(i,length): if rmax<l[i2]: rmax=l[i2] res=max(min(lmax,rmax)-l[i],0) print(i, l[i],'lmax='+str(lmax),'rmax='+str(rmax),'res='+str(res)) [/code]
珍珠移动距离和(python拼多多)
CSDN-Ada助手: 非常感谢你的分享，这篇博客对于想要学习珍珠移动距离和算法的读者来说非常有帮助。我觉得你可以写一篇关于python数据可视化的技术博文，介绍如何利用python中的数据可视化库展示珍珠移动距离和算法的结果，这样的技术文章对其他用户也会非常有启发作用。下一篇你可以继续就python数据可视化进行深入探讨，相信会有更多读者受益于此。加油！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
字母异位词分组(python)
qq_39951415: 少一组for循环
字母异位词分组(python)
qq_39951415: class Solution(object): def groupAnagrams(self, strs): """ :type strs: List[str] :rtype: List[List[str]] """ result = [] index_dict = {} for index, s in enumerate(strs): tmp = ''.join(sorted(list(s))) if index_dict.get(tmp) != None: result[index_dict[tmp]].append(strs[index]) else: result_index = len(result) index_dict[tmp] = result_index result.append([strs[index]]) return result
括号的分数(python)
haohui_H: elif len == 2 需要去掉

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。