原
西瓜书第3章之类别不平衡问题
2018年08月24日 14:16:59
su_poplar
阅读数:106
</div>
<div class="operating">
</div>
</div>
</div>
</div>
<article class="baidu_pl">
<div id="article_content" class="article_content clearfix csdn-tracking-statistics" data-pid="blog" data-mod="popu_307" data-dsm="post">
<div class="article-copyright">
版权声明:本博所有原创文章,欢迎转载,转载请注明出处 https://blog.csdn.net/qq_34553043/article/details/82017444 </div>
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-f57960eb32.css">
<div id="content_views" class="markdown_views prism-github-gist">
<!-- flowchart 箭头图标 勿删 -->
<svg xmlns="http://www.w3.org/2000/svg" style="display: none;"><path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path></svg>
<p></p><div class="toc"><h3><a name="t0"></a>西瓜书第3章之类别不平衡问题</h3><ul><ul><li><a href="#35__1" rel="nofollow" target="_self">3.5 类别不平衡问题</a></li><ul><li><a href="#351__4" rel="nofollow" target="_self">3.5.1 解决类别不平衡-欠采样(下采样)</a></li><li><a href="#352__9" rel="nofollow" target="_self">3.5.2 解决类别不平衡-过采样</a></li><li><a href="#353__21" rel="nofollow" target="_self">3.5.3 解决类别不平衡-阙值移动</a></li></ul></ul></ul></div><p></p>
3.5 类别不平衡问题
类别不平衡是指分类任务中不同类别数目差距大。
例如负样本与正样本比为10:1。
3.5.1 解决类别不平衡-欠采样(下采样)
减少负样本的训练集,使正样本与负样本接近。
代表算法:EasyEnsemble
原理: 将负样本随机取出与正样本数目接近集合,组成训练集用于训练。重复以上多次产生多个基分类器。将各个基分类器集成输出最终决策。
3.5.2 解决类别不平衡-过采样
代表算法:SMOTE
原理:
下图表示蓝色样本点数目远大于红色样本点
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/20631ec2c44adbdbe806e21029e968e7.png)
先随机选取1个少类样本点
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/20863805a7f1397d687166f1b1ce162c.png)
再根据欧式距离计算出它到少类样本的距离,得到K近邻。
![这里写图片描述](https://i-blog.csdnimg.cn/blog_migrate/67c5b385237a7c7c61d52db738880235.png)
对于每一个少类样本,从K近邻中随机选出近邻
x
n
x
n
x
n
xnxn x_n
xnxnxn1−yy>m−m+时判别为正样本。
</div>
<link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-258a4616f7.css" rel="stylesheet">
</div>
</article>