机器学习笔记（X）线性模型(VI)类别不平衡问题

最新推荐文章于 2020-06-13 17:08:47 发布

王先生的副业

最新推荐文章于 2020-06-13 17:08:47 发布

阅读量441

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uncle_gy/article/details/78827139

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

39 篇文章 5 订阅

订阅专栏

类别不平衡问题

分类学习方法的问题

假设正类和反类的样例数目相当，但是有时候样例数量的差别较大，比如正例样本有998个，而反例样本只有2个，此时学习方法如果一直返回正例则预测的准确度会高达 $99.8\%$ ，但是这样的学习器没有任何价值。

类别不平衡的定义

$class\text{-}imbalance$ 是指分类任务中不同类别的训练样例的数目差别非常大的情况

假设

假定正类样本较少，反类样本较多

处理方法

从线性分类器的角度讨论，在使用 $y=\mathbf{w}^T\mathbf{x}+b$ 对新样本进行分类的时候，实际上是在用预测出的 $y$ 值和一个阈值进行比较，通常在 $y\gt0.5$ 时判为正例，否则为反例。

关于 $y$

$y$ 实际上表达了正例的可能性，几率 $\dfrac{y}{1-y}$ 反应了正例可能性和反例可能性的比值，此时阈值 $0.5$ 表明了分类器认为真实正、反例可能性相同，

决策规则

y 1 - y > 1

$\dfrac{y}{1-y}\gt1$ 则预测为正例，反之为反例。

类别不平衡的处理

观测几率： $\dfrac{m^+}{m^-}$

$m^+$ 表示正例数目
$m^-$ 表示反例数目

此时决策规则改为：

y 1 - y > m + m -

$\dfrac{y}{1-y}\gt\dfrac{m^+}{m^-}$ 则预测为正例，反之为反例。

采样

假定正类样本较少，反类样本较多

欠采样

减少多的，这里除去一些反例样本，使得正反例样本数量接近

过采样

增加少的，这里增加一些正例样本，使得正反例样本数量接近

基于原始训练集

对样本数量不做处理，保持原状，
使用再缩放策略，
再缩放

y ' 1 - y ' = y 1 - y \times m - m +

$\dfrac{y'}{1-y'}=\dfrac{y}{1-y}\times\dfrac{m^-}{m^+}$
将上式嵌入到决策过程中。

王先生的副业

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记（X）线性模型(VI)类别不平衡问题

类别不平衡问题分类学习方法的问题假设正类和反类的样例数目相当，但是有时候样例数量的差别较大，比如正例样本有998个，而反例样本只有2个，此时学习方法如果一直返回正例则预测的准确度会高达99.8%99.8\%，但是这样的学习器没有任何价值。类别不平衡的定义class-imbalanceclass\text{-}imbalance是指分类任务中不同类别的训练样例的数目差别非常大的情况假设假定正类样本较少
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。