从SVM核函数特点看特征选择:SVM的核函数本质上是通过拆解当前特征(变成更多的特征),使一个非线性的问题转换为线性问题(SVM本身只能解决线性问题,现在有了核函数它就能够解决非线性问题了)。
所以,无论是不是线性函数,SVM都没有对不同的feature进行交叉计算:
比如一个vector (a, b, c), SVM只会扩展出 (a1, a2, a3, b1, b2, c1, c2),但绝不会扩展出类似( a/b, b/c, logb(a^2) )。
所以在进行SVM特征选择时,必须给出理性的,直觉上有贡献的feature,而不是把所有原始信息丢给SVM,寄希望于其后期的核函数能搞定这一点。换句话说,经过计算的derived feature 包含信息可能不比原始feature更多,但如果是有效的derive feature会大大提高SVM的分类效果。
感觉对于事先提取有用的特征是很必要,对于图像区域信息提取,尽管可以有颜色、形状、纹理等信息,但区域之间的关系虽然也可以得到,但具体在SVM里如何得到体现我还真不知道,这个就是label之间的权值?
如果提取的特征相关性太大,那么做PCA还是很有必要的。这样就避免了冗余特征的存在,比较SVM不是万能公式,虽然它号称现今powerest的分类器。