逻辑回归中样本不平衡的解决方案

最新推荐文章于 2024-07-23 22:09:38 发布

赏花赏月赏秋香

最新推荐文章于 2024-07-23 22:09:38 发布

阅读量3.9k

点赞数 2

分类专栏：逻辑回归文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42308441/article/details/109594661

版权

逻辑回归专栏收录该内容

1 篇文章 0 订阅

订阅专栏

逻辑回归中样本不平衡的解决方案：

在逻辑回归中，如果数据不平衡会导致如下情况，分类效果差：

未加权的图

改进：对不同类型进行加权，公式如下：

$l(\theta \mid \mathbf{Y})=\left\langle\prod_{i=1}^{n_{L}} g^{-1}\left(\eta_{i} \mid \theta\right)\right\rangle^{W_{L}}\left\langle\prod_{j=1}^{n_{NL}}\left[1-g^{-1}\left(\eta_{j} \mid \theta\right)\right]\right\rangle^{W_{NL}}$

其中 $g^{-1}\left(\eta_{i} \mid \theta\right)$ 为概率密度, $W_{L}$ 与 $W_{NL}$ 分别为不同类别的权重(权重设置按照具体情况而定)。

在sklearn.linear_model import LogisticRegression中即是设置class_weight参数，具体使用如下：
class_weight = {0: NL, 1: L}，其中0和1为标签，NL和L为所设置的权重。

画图结果如下：
加权后的图
需要加权的情况：

第一种是误分类的代价很高。比如对合法用户和非法用户进行分类，将非法用户分类为合法用户的代价很高，我们宁愿将合法用户分类为非法用户，这时可以人工再甄别，但是却不愿将非法用户分类为合法用户。这时，我们可以适当提高非法用户的权重。

第二种是样本是高度失衡的，比如我们有合法用户和非法用户的二元样本数据10000条，里面合法用户有9995条，非法用户只有5条，如果我们不考虑权重，则我们可以将所有的测试集都预测为合法用户，这样预测准确率理论上有99.95%，但是却没有任何意义。这时，我们可以选择balanced，让类库自动提高非法用户样本的权重。

赏花赏月赏秋香

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
逻辑回归中样本不平衡的解决方案

逻辑回归中样本不平衡的解决方案：前情提要：在逻辑回归中，如果数据不平衡会导致如下情况，分类效果差：改进：对不同类型进行加权，公式如下：l(θ∣Y)=⟨∏i=1nLg−1(ηi∣θ)⟩WL⟨∏j=1nNL[1−g−1(ηj∣θ)]⟩WNLl(\theta \mid \mathbf{Y})=\left\langle\prod_{i=1}^{n_{L}} g^{-1}\left(\eta_{i} \mid \theta\right)\right\rangle^{W_{L}}\left\langle\pr
复制链接

扫一扫

专栏目录