对解线性分类问题,线性分类支持向量机是一种有效的方法。但是,有时分类问题是非线性的,这时可以使用非线性支持向量机。
核技巧
**非线性分类问题:**如上面左图所示,能用 R n R^n Rn中的一个超曲面将正负实例分开,则称这个问题为非线性可分问题。
非线性问题不好求解,想办法转换成线性问题。
通过进行一个非线性变换(线性变换无法改变数据集的线性可分与不可分性),将非线性问题转换为线性问题,通过解变换后的线性问题的方法求解原来的非线性问题。(如上图所示)
用线性分类方法求解非线性分类问题分为两步:
1):首先使用一个非线性变换,将原空间的数据映射到新的空间
2):然后在新空间里用线性分类学习方法从该训练数据集中学习分类模型。
核技巧就属于这样的方法。
要搞明白核技巧是怎么回事,我们先来看一下核函数的定义:
李航在统计学习方法中的定义是:有一个输入空间 χ χ χ是欧式空间 R n R^n Rn的子集,又有一个特征空间 H H H,是希尔伯特空间,如果存在一个从 χ χ χ到 H H H的映射 Φ ( x ) : χ → H Φ(x):χ→H Φ(x):χ→H,使得对所有的 x , z ∈ χ x,z∈χ x,z∈χ,函数 K ( x , z ) = Φ ( x ) Φ ( z ) K(x,z)=Φ(x)Φ(z) K(x,z)=Φ(x)Φ(z)
则称 K ( x , z ) K(x,z) K(x,z)为核函数, Φ ( x ) Φ(x) Φ(x)为映射函数,式中 Φ ( x ) Φ ( z ) Φ(x)Φ(z) Φ(x)Φ(z)为 Φ ( x ) Φ(x) Φ(x)和 Φ ( z ) Φ(z) Φ(z)的内积。
核技巧的想法是:在学习与预测中只定义核函数 K ( x , z ) K(x,z) K(x,z),而不显式定义映射函数 Φ ( x ) Φ(x) Φ(x)