SVM——分类与回归实例

转载 2017年10月06日 21:56:47

在线课堂——支持向量机实例学习笔记。

支持向量机简介

支持向量机是一种监督学习数学模型,由n个变量组成的数据项都可以抽象成n维空间内的一个点,点的各个维度坐标值即为各个变量。如果一堆数据项可以分为m个类,那么可以构建m-1个n维超平面将不同种类的数据项的点尽量分隔开,则这些超平面为支持向量面,这个分类数学模型为支持向量机分类模型。

Classification分析——鸢尾花数据集

Scikit-Learn自带鸢尾花数据集,可使用datasets.load_iris()载入。

  • data——每行是某个鸢尾花的花萼长度、花萼宽度、花瓣长度、花瓣宽度。
  • target——第n个数据分别表示data段第n行数据所对应的鸢尾花类别编号(共3类)。

首先,使用交叉验证法进行分析。由于交叉验证法每次选取的测试集是随机的,因此每次运算结果未必相同。下面为鸢尾花数据集的SVM聚类训练的源码,并用交叉验证法进行分析。

from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVC
from numpy import *

# download the dataset
iris_dataset = datasets.load_iris()
iris_data = iris_dataset.data           
iris_target = iris_dataset.target

# split data and target into training set and testing set
# 80% training, 20% testing
x_train, x_test, y_train, y_test = train_test_split(iris_data, iris_target, test_size = 0.2)
# construct SVC by using rbf as kernel function
SVC_0 = SVC(kernel = 'rbf')
SVC_0.fit(x_train, y_train)

predict = SVC_0.predict(x_test)
right = sum(predict == y_test)
# accuracy rate
print("%f%%" % (right * 100.0 / predict.shape[0]))

以下源码是使用留一验证法(Leave-One-Out,LOO)对鸢尾花数据集进行分析。

from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVC
from numpy import *

def data_svc_test(data, target, index):
    x_train = vstack((data[0: index], data[index + 1: -1]))
    x_test = data[index]
    y_train = hstack((target[0: index], target[index + 1: -1]))
    y_test = target[index]
    SVC_0 = SVC(kernel = 'rbf')
    SVC_0.fit(x_train, y_train)
    predict = SVC_0.predict(x_test)
    return predict == y_test

# download the dataset
iris_dataset = datasets.load_iris()
iris_data = iris_dataset.data           
iris_target = iris_dataset.target
length = iris_target.shape[0]
right = 0
for i in range(0, length):
    right += data_svc_test(iris_data, iris_target, i)

# accuracy rate
print("%f%%" % (right * 100.0 / length))

Regression分析——波士顿房价数据集

Scikit-learn自带波士顿房价集,该数据集来源于1978年美国某经济学杂志上,可由datasets.load_boston()载入。该数据集包含若干波士顿房屋的价格及其各项数据,每个数据项包含14个数据,分别是房屋均价及周边犯罪率、是否在河边等相关信息,其中最后一个数据是房屋均价。
这里涉及到了一个数据预处理的步骤——为了便于后续训练,需要对读取到的数据进行处理。因为影响房价的数据的范围都不一致,这些数据都不在一个数量级上,如果直接使用未经预处理的数据进行训练,很容易导致数值大的数据对结果影响极大,从而不能平衡的体现出各个数据的重要性。因此需要通过数学方法,依据方差、平均值等因素,把各类数据放缩到一个相同的范围内,使其影响力所占权重相近。

from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.svm import SVR
# preprocessing function
from sklearn.preprocessing import StandardScaler
from numpy import *

house_dataset = datasets.load_boston()
house_data = house_dataset.data
house_price = house_dataset.target
x_train, x_test, y_train, y_test = train_test_split(house_data, house_price, test_size = 0.2)
# f(x) = (x - means) / standard deviation
scaler = StandardScaler()
scaler.fit(x_train)
# standardization
x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)

# construct SVR model
svr = SVR(kernel = 'rbf')
svr.fit(x_train, y_train)
y_predict = svr.predict(x_test)
result = hstack((y_test.reshape(-1, 1), y_predict.reshape(-1, 1)))
print(result)

最后预测结果呈2列显示,第1列为实际房价,第2列为预测房价,此处略



作者:一枚圆滚滚的鸡蛋
链接:http://www.jianshu.com/p/84015743be01
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

利用SVM 实现文本分类的实例

原文来自:http://blog.csdn.net/zhzhl202/article/details/8197109 之前做过一些文本挖掘的项目,比如网页分类、微博情感分析、用户评论...

Python机器学习(二):Logistic回归建模分类实例——信用卡欺诈监测(上)

利用下采样处理数据,Logistic回归建模,实现信用卡欺诈监测

Python机器学习(三):Logistic回归建模分类实例——信用卡欺诈监测(下)

Logistic回归建模分类实例——信用卡欺诈监测 上篇博客是用下采样的方式来处理数据,解决样本数据不均衡,从模型的测试结果来看,下采样使得模型的误杀率很高。那现在我们就用过采样来处理数据看看结果如...

SVM实现多分类的程序基础工作(二)——通过一个简单libsvm例子迈入libsvm学习的大门

在SVM实现多分类的程序基础工作(一)中概要的介绍了为何要安装libsvm,那安装了libsvm之后要干嘛呢?给个例子简单的说明libsvm应用的方便性。我们用libsvm自带的测试数据heart_s...

SVM入门(六)线性分类器的求解——问题的转化,直观角度

让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点...
  • lsp1991
  • lsp1991
  • 2014年04月02日 09:20
  • 436

SVM入门(六)线性分类器的求解——问题的转化,直观角度

让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方形的点定为负例...

SVM入门(六)线性分类器的求解——问题的转化,直观角度

让我再一次比较完整的重复一下我们要解决的问题:我们有属于两个类别的样本点(并不限定这些点在二维空间中)若干,如图, 圆形的样本点定为正样本(连带着,我们可以把正样本所属的类叫做正类),方...

SVM入门(四)线性分类器的求解——问题的描述Part1

上节说到我们有了一个线性分类函数,也有了判断解优劣的标准——即有了优化的目标,这个目标就是最大化几何间隔,但是看过一些关于SVM的论文的人一定记得什么优化的目标是要最小化||w||这样的说法,这是怎么...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:SVM——分类与回归实例
举报原因:
原因补充:

(最多只允许输入30个字)