概述
- 优点:泛化错误率低,计算开销不大,结果易解释。
- 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用于处理二类问题。
- 适用数据类型:数值型和标称型数据。
分隔超平面:将数据集分隔开的平面。
支持向量:离分隔超平面最近的那些点。
寻找最大间隔
分隔超平面的形式可以写成。
现在的目标是找出定义中的w和b。为此,我们必须找到具有最小间隔的数据点,而这些数据点也就是前面提到的支持向量。一旦找到具有最小间隔的数据点,我们就需要对该间隔最大化。这就可以写作:
使用拉格朗日乘子法可以将目标函数写成:
再引入松弛变量,则约束条件变为:
,和
SMO算法