SVM学习之一：libsvm中的数据预处理

最新推荐文章于 2024-04-19 00:19:04 发布

fpcfan

最新推荐文章于 2024-04-19 00:19:04 发布

阅读量3.5k

点赞数

分类专栏：搜索引擎问题文章标签： vector variables 网络 python 测试 input

搜索引擎问题专栏收录该内容

3 篇文章 0 订阅

订阅专栏

名词解释：

(1) SVM（Support Vector Machine）是从瓦普尼克（Vapnik）的统计学习理论发展而来的，主要针对小样本数据进行学习、分类和预测（有时也叫回归）的一种方法，能解决神经网络不能解决的过学习问题。作者以为，类似的根据样本进行学习的方法还有基于案例的推理（Case-Based Reasoning），决策树归纳算法C4.5等，以后将详细阐述这两种方法。

(2)过学习问题：训练误差过小导致推广能力下降，即真实风险的增加。

(3)推广能力：generalization ability，也可以说是泛化能力，就是对未知样本进行预测时的精确度。

原文：A practical guide to support vector classification.

libsvm中的样本预处理的原则有2个：

1 非数值属性(Categorical Feature)

由于SVM要求被处理的数据都是实数，因此对于属性值为类别的属性要进行转换。例如{red, green, blue},可以转换成3个属性

red (1, 0, 0)

green (0, 1, 0)

blue (0, 0, 1)

来表示。经验表明当这样的非数值属性的取值不是太多（这个具体数字不明确）的时候，这种编码比用一个数字来表示属性的类别要稳定的多，比如用1, 2, 3来分别表示red, green, blue就不太合适了。目前，这个过程没有实现自动处理，需要使用者根据属性取值的多少自己动手去修改。

2 缩放(scaling)

进行缩放的原因和使用神经网络时的考虑是一样的，由于RBF网络中采用样本数据的欧式距离来计算。主要优点就是避免数值范围较大的属性控制数值范围较小的属性。另一个优点就是避免计算时的numerical difficulties. 因为核值通常依赖特征向量的内积(inner product)，而较大的属性值可能导致numerical问题。因此推荐把每个属性缩放到[-1, 1]或者[0, 1]之间，而且前一个范围要比后一个好，即对列向量进行规范化，其详细解释和计算公式见http://www.faqs.org/faqs/ai-faq/neural-nets/part2/中的“Should I standardize the input variables (column vectors)?”。libsvm中没有考虑属性的类型（效益、成本、固定、偏离、区间、偏离区间 6 种不同的属性类型的规范化计算公式是不一样的，详见：徐泽水，《不确定多属性决策方法及应用》，清华大学出版社，2004。）而采用了统一的线性缩放，作者以为此处可以改进一下。

需要注意的是，在进行测试之前，要对测试数据进行同样的缩放操作。其实在libsvm中有程序（svmscale.exe）来进行缩放操作，也可以不用手工缩放，只要用easy.py来对（经过非数值的归一化处理之后的）原始数据直接操作即可。

上面这两种方法基本上可以完成所有的样本的预处理了。其实只有原则 1 是需要自己手工改动的，其他工作在libsvm中的tool文件夹下都由现成的python程序处理。