机器学习教程 五.SVM(支持向量机)算法理解和应用

本文介绍了支持向量机(SVM)的基本概念,强调其寻找最佳分割超平面的目标,并通过实例展示了如何使用sklearn库在乳腺癌数据集上进行分类。SVM通过找到支持向量确定决策边界,相较于KNN,它在处理无意义数据和离群值时可能表现更好。文章推荐了一篇深入理解SVM的教程,并预告下篇将探讨聚类算法。
摘要由CSDN通过智能技术生成

这篇博客我本来想花大力气来写的,写到一半时发现有人已经做了充足的工作,而且写的很完美,此处膜一下July的这篇《支持向量机通俗导论(理解SVM的三层境界)》本着不重复造轮子的思想(其实我写了不一定有他好),我简单介绍SVM和如何在sklearn中运用。

我们现在要学习另一种形式的监督机器学习和分类算法:支持向量机。支持向量机的目标是找到数据间的最佳分割边界。在二维空间中,你可以把它想象成分割数据集的最佳拟合线。在支持向量机中,其实我们是在处理向量空间,因此分离线实际上是一个分离的超平面。最好的分离超平面被定义为包含支持向量之间“最宽”边界的超平面。超平面也可以称为决策边界。最简单的表达方式是通过图片:


我们将从上述数据开始。前一篇博客我们使用了KNN算法对这个数据集进行分类,下面我们将使用svm对其进行分类.我们怎么算出最好的分割超平面呢?好吧,我们可以看这个:

作为结构风险最小化准则的具体实现,支持向量机方法具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛的研究。本文仔细研究了支持向量机理论,并针对目前一些支持向量机算法存在的缺陷,分析了产生的原因,提出了两种新的支持向量机算法。针对支持向量机算法难以处理大规模数据的问题,提出了两种新的支持向量机分类方法。并就多类别分类问题等方面开展了初步的理论研究。 本文主要工作包括: (1)讨论了支持向量机理论中各种变形的支持向量机算法,对常规支持向量机公式进行变形的算法主要有C-SVM系列、ν-SVM系列、One-class SVM、RSVM、WSVM和LS-SVM算法,通过增加函数项、变量或系数等方法使公式变形,产生出各种有某一方面优势或者一定应用范围的算法。通过比较它们各自的优缺点等情况,为提出新的支持向量机算法做了理论准备。 (2)介绍了超球面支持向量机算法的思想,以及超球面和超平面的区别。研究了目前超球面支持向量机算法,它们的目标函数中缺少了使分类间隔尽量大这个条件,而这个条件是统计学习理论中结构风险最小化的体现,直接反映了算法的推广能力。因此,提出了一种新的超球面支持向量机算法,具有较好的推广能力,成功地解决了现有超球面支持向量机算法在推广能力的缺陷。 (3)针对某些支持向量机算法不能解决样本类别之间差异造成的不良影响的缺陷,提出了一种新的加权支持向量机算法,该算法具有补偿类别差异的优点,可应用于解决多类别分类问题。并且从另外一个角度对加权C-SVM算法和加权ν-SVM算法的类别补偿性能进行了分析。 (4)提出了基于粗糙集理论和支持向量机理论的粗SVM分类方法。该方法采用粗糙集属性约简的思想减少属性个数,且在属性约简过程中选出几组合适的属性集组成新的属性集,使模型具有一定的抗信息丢失能力。同时充分利用支持向量机理论的良好推广性能,提高了预测分类精度。 (5)提出了基于主成分分析方法和支持向量机理论的去噪声加权SVM分类方法。该方法通过引入主成分分析方法来降维去噪声,同时补偿类别差异造成的不利影响,提高了预测分类精度。 (6)把支持向量机理论应用到污水处理过程运行状态监控中去。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值