1.放宽条件
仅仅将可选函数框定在线性函数是不够的,不能很好的划分不同的类别,万一划分样本的超平面需是一个无法用线性函数表示的曲面呢。
由于在线性可分的限制条件下,线性不可分的数据集是无解的,因此我们需要放宽限制条件,增加新的条件,得到解。
放宽限制条件的基本思路:
对每个训练样本及标签(Xi,Yi)设置一个松弛变量
增加新的条件:松弛变量>0,松弛变量的比例因子C是人为设定,这种事先人为设定的参数叫超参数
我们要不断变化c的值,测算每次的识别率,选取合适的超参数
c越大,可以使得松弛变量趋于0,也就使得超平面和线性可分情况保持基本一致
个人理解:线性可分的情况下最小化的要求是1/2w2,而在非线性可分的情况下,最小化加上了松弛变量的和,我的理解是,松弛变量的出现是为了放宽限制条件,可以理解成一个偏移量,偏离原先线性可分情况下的超平面。那最小化的意思就是,非线性可分的数据集去除某几个样本数据后,其余的数据就是线性可分的,在这个基础上,给出一个偏移量/松弛量,就能使得求得的平面可以满足所有的样本数据。
2.低维映射到高维
为什么映射到高维就能找到解呢?
因为当特征空间的维度越大,待测估计参数(w,b)的维度也就越大,整个算法模型的自由度增加,也就更有可能分开在低维情况下无法分开的数据集
我们定义一个映射,将X→φ(X)
那如何得到φ(X)的表达式就成了关键,但是Vapnik提出不需要知道φ(X)的具体表示,而只要知道
核函数,就能知道的值,从而知道所属类别
核函数的形式如下所示:
核函数K和映射函数φ是一一对应的关系
当然核函数的形式不能随意地取,只有满足一定的条件,才能转化为两个φ的内积形式