SVM 解决类别不平衡问题(scikit_learn)

最新推荐文章于 2024-04-14 12:17:22 发布

Codename-NC

最新推荐文章于 2024-04-14 12:17:22 发布

阅读量1.1w

点赞数 5

分类专栏：笔记-算法文章标签： SVM ChrisAlbon Scikit-learn 机器学习

笔记-算法专栏收录该内容

17 篇文章 2 订阅

订阅专栏

在支持向量机中， $C$ 是负责惩罚错误分类数据的超参数。

解决数据类别不平衡的一个方法就是使用基于类别增加权重的 $C$ 值

C j = C * w j

$C_j = C * w_j$

其中， $C$ 是误分类的惩罚项， $w_j$ 是与类别 $j$ 的出现频率成反比的权重参数， $C_j$ 就是类别 $j$ 对应的加权 $C$ 值

主要思路就是增大误分类少数类别带来的影响，保证少数类别的分类正确性，避免被多数类别掩盖

在scikit-learn 中，使用 svc 方法时，可以通过设置参数

class_weight=’balanced’

实现上述加权功能

参数‘balanced’ 会自动按照以下公式计算权值：

w j = n k n j

$w_j = \frac{n}{kn_j}$

其中， $w_j$ 为类别 $j$ 对应权值， $n$ 为数据总数， $k$ 为类别数量，即数据有 $k$ 个种类， $n_j$ 是类别 j <script type="math/tex" id="MathJax-Element-17">j</script> 的数据个数

0.导入库

# Load libraries
from sklearn.svm import SVC
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
import numpy as np

1、加载Iris Flower 数据集

#只加载两个类别的数据，两类，各50个
iris = datasets.load_iris()
X = iris.data[:100,:]
y = iris.target[:100]

2.不均衡化数据集

# 删掉前四十个数据，数据总数变为60个
X = X[40:,:]
y = y[40:]

# 类别为0的类别不变，类别不为0的全部变为1
y = np.where((y == 0), 0, 1)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

可以看到，有60个数据，10个为类别0,50个为类别1

3.特征标准化

# Standarize features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

4.使用加权类别训练SVM分类器

# Create support vector classifier
svc = SVC(kernel='linear', class_weight='balanced', C=1.0, random_state=0)

# Train classifier
model = svc.fit(X_std, y)

翻译自Chris Albon 博客
原文地址

Codename-NC

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
SVM 解决类别不平衡问题(scikit_learn)

在支持向量机中，CCC 是负责惩罚错误分类数据的超参数。解决数据类别不平衡的一个方法就是使用基于类别增加权重的CCC值Cj=C∗wjCj=C∗wjC_j = C * w_j其中，CCC是误分类的惩罚项，wjwjw_j是与类别 jjj 的出现频率成反比的权重参数，CjCjC_j 就是类别 jjj 对应的加权CCC值主要思路就是增大误分类少数类别带来的影响，保证少数类别的...
复制链接

扫一扫