今天继续cv和svm的用法和参数优化
感觉所有的回归器都有一个问题就在于数据的准备上,好像都要转换成该回归器可用的格式
然而并不是。。我猜是要设置svm或者decisiontree的参数 如果比如说 你把 clv = svm.SVR() 再用clv.fit就不会有啥问题,因为前面的参数都是默认的
但如果用svm.SVR.fit就会出错,要设置SVR里面的参数,但是默参数效果很差
我觉得可能还是要改变里面的参数那么用什么参数呢。这就涉及到寻參的问题了
要是真的要理解算法 可能需要自己模仿代码 然后自己编代码。。
寻參的方法可能是gridsearch用来寻找c和g的值
那么c和g究竟是干什么的?c是svm自带的一个参数,也就是惩罚参数,我猜在c越大时,对误差的容忍就越小,说明把误差都惩罚回来。
g是径向基自带的一个参数,在g越大是,径向基函数的半径就越大.exp就是求e的x次幂
k(x,y) = exp(-||x-y||^2/2sigma^2) coefficient是相关系数
这些公式我是否知道是怎么来的?
scikit-learn有个特征寻找,我觉得可以尝试一下。
特征选择:从大量的特征中选出少量的特征作为有效的特征。
常用的有四种方法:广度优先搜索,分支限界搜索,定向搜索,最优优先搜索(不限制优先队列的长度) 专业名词一个看不懂。。
还是用feature select 即特征选择来决定