SVM处理流程总结：

最新推荐文章于 2024-01-21 17:12:41 发布

暮雪成冰

最新推荐文章于 2024-01-21 17:12:41 发布

阅读量6.6k

点赞数 8

分类专栏：其他

其他专栏收录该内容

48 篇文章 1 订阅

订阅专栏

四、SVM处理流程总结：

1、收集数据，相关性分析（比如p卡方检验），特征选择（比如主成份分析PCA）。

2、归一化数据：就是根据实际要求，将数据的取值范围转化为统一的区间如[a,b],a,b为整数。（参考缩放训练和测试数据时的常见错误[附录B]）

3、分训练集和测试集：利用抽样技术将数据集分为训练集和测试集。抽样技术有分层抽样，简单抽样（等概率抽样）。一般训练集数量大于测试集数量，就是要保证足够的训练样例。

4、将数据转化为软件（接口）所支持的格式。

5、选择核函数，可以优先考虑RBF。

6、使用交叉验证（cross-validation）寻找最佳参数C和Υ：对训练集利用交叉验证法选择最好的参数C和r（西格玛）（RBF核函数中的参数gama）。可以通过网格法寻找出最优的参数，注意一次交叉验证得到一个参数对所对应的模型精度，网格法目的就是找到使得模型精度达到对高的参数对（这里的参数对可能不止两个，有可能也有其他的），可以使用一些启发式的搜索来降低复杂度，虽然这个方法笨了点，但是它能得到很稳定的搜索结果。需要提到的这里在对训练集进行分割的时候涉及到抽样，一个较好的方法就是分层抽样。从这步可以看出其实 Cross－Validation是一种评估算法的方法。

a. 训练的目的得到参数和支持向量（存储在xml文件中），得到参数就能得到支持向量，带进算式计算SVM分类的准确度，以准确度最高的一组参数作为最终的结果，没有绝对线性可分的，都有一个误差，参数就是把那个误差降到最低。

b. 这里的准确性是指将训练集的每个样本的向量与支持向量做运算，将运算结果与标记值比较,判断是否属于这个类，统计这个类的正确的样本数，最高的那一组参数准确性最高。

c. 最终训练得到分类器。SVM只能分两类，所以这里的分类器是两个类组成一个分类器，如果有K类，就有k(k-1)/2个分类器。

7、使用最佳参数C和Υ来训练整个训练集：用6中得到的参数对在整个训练集合上进行训练，从而得出模型。

8、测试：利用测试集测试模型，得到精度。这个精度可以认为是模型最终的精度。当然有人会担心3步中抽样会有一定的误差，导致8得到的精度不一定是最好的，因此可以重复3－8得到多个模型的精度，然后选择最好的一个精度最为模型的精度（或者求所有精度的均值做为模型精度）。（需要多次选择训练集和测试集，然后每一次得到一个精度的模型，选择最好的一个精度作为模型，也就是我们项目里面要多次训练的原因）。

9. 识别分类：两个类超平面的形成，意味着目标函数的形成，然后代入待识别样本，识别时对应的组代入对应的参数，得出结果进行投票，判定属于那个类。

关注

8
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
SVM处理流程总结：

四、SVM处理流程总结：1、收集数据，相关性分析（比如p卡方检验），特征选择（比如主成份分析PCA）。2、归一化数据：就是根据实际要求，将数据的取值范围转化为统一的区间如[a,b],a,b为整数。（参考缩放训练和测试数据时的常见错误[附录B]）3、分训练集和测试集：利用抽样技术将数据集分为训练集和测试集。抽样技术有分层抽样，简单抽样（等概率抽样）。一般训练集数量大于测试集数量，就是要保...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。