支持向量机SVM

最新推荐文章于 2024-09-14 22:05:28 发布

Sweeney Chen

最新推荐文章于 2024-09-14 22:05:28 发布

阅读量309

点赞数 1

分类专栏：数据挖掘文章标签： SVM

本文链接：https://blog.csdn.net/weixin_41792682/article/details/90230859

版权

数据挖掘专栏收录该内容

17 篇文章 4 订阅

订阅专栏

支持向量机SVM

SVM工作原理：从低维向高维映射，找到能够区分类别且分类间隔最大的超平面。SVM就是求解最大分类间隔的过程。

分类间隔：

$d_{i}=\frac{\left|\omega x_{i}+b\right|}{\|\omega\|}$

最大间隔的优化模型：

SVM的目标就是找出所有分类间隔中最大的那个值对应的超平面，属于数学中的凸优化问题，用拉格朗日乘子和KKT条件求解。

硬间隔、软间隔和非线性SVM：

硬间隔是指完全分类正确，不能存在分类错误的情况。
软间隔指允许一定量的样本分类错误。
核函数可将原始空间映射到一个更高维度的特征空间中，使得样本在新的空间中线性可分，从而完成非线性的分类问题。
常用的核函数有线性核、多项式核、高斯核、拉普拉斯核、sigmoid核

将多个二分类器组合起来形成一个多分类器，常见方法有一对多法和一对一法。

一对多法：将其中的一个类别归为一类，其他的类别同一归为另一类。
一对一法：在任意两类样本之间构造一个SVM

SVM在sklearn中的创建：

model = svm.SVC(kernel=‘rbf’, C=1.0, gamma=‘auto’)

kernel核函数有四种选择：

linear线性核函数
poly多项式核函数
rbf高斯核函数
sigmoid核函数

线性核函数在线性可分情况下使用，速度快，效果好，但不能处理线性不可分数据

多项式核函数可将数据从低维映射到高维空间，参数多，计算量大

高斯核函数可将样本映射到高维空间，且比多项式核函数所需参数少，通用性能好，为默认

参数C指目标函数惩罚系数，C越大，分类精度越高，但容错率会降低，泛化能力变差。C越小，泛化能力越强，但准确率会降低

gamma为核函数系数，默认为样本特征数的倒数

SVM案例乳腺癌检测：

加载数据源

# 加载数据集，你需要把数据放到目录中
data = pd.read_csv("./data.csv")
# 数据探索
# 因为数据集中列比较多，我们需要把dataframe中的列全部显示出来
pd.set_option('display.max_columns', None)
print(data.columns)
print(data.head(5))
print(data.describe())

数据清洗

# 将特征字段分成3组
features_mean= list(data.columns[2:12])
features_se= list(data.columns[12:22])
features_worst=list(data.columns[22:32])
# 数据清洗
# ID列没有用，删除该列
data.drop("id",axis=1,inplace=True)
# 将B良性替换为0，M恶性替换为1
data['diagnosis']=data['diagnosis'].map({'M':1,'B':0})

特征选择

# 将肿瘤诊断结果可视化
sns.countplot(data['diagnosis'],label="Count")
plt.show()
# 用热力图呈现features_mean字段之间的相关性
corr = data[features_mean].corr()
plt.figure(figsize=(14,14))
# annot=True显示每个方格的数据
sns.heatmap(corr, annot=True)
plt.show()
# 特征选择
features_remain = ['radius_mean','texture_mean', 'smoothness_mean','compactness_mean','symmetry_mean', 'fractal_dimension_mean']

训练集分割

# 抽取30%的数据作为测试集，其余作为训练集
train, test = train_test_split(data, test_size = 0.3)
# 抽取特征选择的数值作为训练和测试数据
train_X = train[features_remain]
train_y=train['diagnosis']
test_X= test[features_remain]
test_y =test['diagnosis']

数据规范化

# 采用Z-Score规范化数据，保证每个特征维度的数据均值为0，方差为1
ss = StandardScaler()
train_X = ss.fit_transform(train_X)
test_X = ss.transform(test_X)

训练和预测

# 创建SVM分类器
model = svm.SVC()
# 用训练集做训练
model.fit(train_X,train_y)
# 用测试集做预测
prediction=model.predict(test_X)
print('准确率: ', metrics.accuracy_score(prediction,test_y))