很早就买了《数据挖掘中的新方法--支持向量机》,一直没有认真看。最近复习了向量,空间,矩阵,然后从头开始看发现逐渐看出一些门道了。
支持向量机,开始给人的感觉很高级,其实也是一类求最大值的问题。只是样本都是一些向量,划分的时候也是用直线去划分。
这是一类求最大化,最小化求值。
一切都是从简单的二维点的划分开始的。了解二维点的划分,对支持向量机就开始入门了。
两类线性不可分得点得集合,通过合适的核函数,可以把点映射到高维空间去做线性划分。比如1类点是大圆,另外一类点在圆内部,那么可以通过平方函数做映射。一般选择高斯核函数,其实是一种偷懒的方法,因为它可以保证在无限维空间中是线性可分的。
所谓核函数,就是把样本数据转化到另外一个空间做划分用的。对于不同的数据,就应该是使用不同核函数。理解了这些,对解决问题,一定更好的作用。
而这些空间就是用到了Hibert空间等知识。
看了这本书,我更加坚信直观对于知识学习的重要性。一个很复杂的算法,其基本思想一定可以用几句通俗的话来描述。如果不能描述,说明对这个理论没有足够的理解。