采用SVM实现Iris Date Set的数据分类)
一. 实验目的:
采用SVM实现Iris Date Set的数据分类
二. 实验环境:
Windous 10操作环境下的python和pycharm和anaconda
三. 实验步骤
1、本次实验有两种方法获取鸢尾属植物数据集的方法。一种是下载机器学习包scikt-learn直接导入数据集,另一种是到下面网站下载数据集。
http://archive.ics.uci.edu/ml/datasets/Iris
2、这里如果选用下载数据集的方法比较麻烦。有现成的scikt-learn第三方数据包就直接引用就好了。可以通过最传统的方法pip install sklearn 直接到官网下载,但是scikt-learn依赖于很多的包如numpy和scipy,但是这些包同样不可以直接通过pip install下载,要想下载他们首先要获得whl文件通过网站获取 numpy文件 http://www.lfd.uci.edu/~gohlke/pythonlibs/tugh5y6k/numpy-1.12.0+mkl-cp35-cp35m-win_amd64.whlscipy文件 http://www.lfd.uci.edu/~gohlke/pythonlibs/#scipy然后通过打开运行cmd,pip下载pip install numpy-1.12.0+mkl-cp35-cp35m-win_amd64.whlpip install <scipy-xxx.whl>pip install sklearn
3、这个sklearn包还可以通过下载第三方资源Anaconda获取。下载Anaconda后打开pycharmm通过file->settings->project->project interpreter->add 点亮Existing environment 然后找到anaconda的python.exe文件即可。
4、之后通过编写好的读取代码即可。下面是代码部分。
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
iris = datasets.load_iris()
X = iris.data[:, :2] # 只取前两维特征
y = iris.target
h = .02 # 网格中的步长
C = 1.0 # SVM正则化参数
svc = svm.SVC(kernel='linear', C=C).fit(X, y) # 线性核
rbf_svc = svm.SVC(kernel='rbf', gamma=0.7, C=C).fit(X, y) # 径向基核
poly_svc = svm.SVC(kernel='poly', degree=3, C=C).fit(X, y) # 多项式核
lin_svc = svm.LinearSVC(C=C).fit(X, y) # 线性核
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
np.arange(y_min, y_max, h))
titles = ['SVC with linear kernel',
'LinearSVC (linear kernel)',
'SVC with RBF kernel',
'SVC with polynomial (degree 3) kernel']
for i, clf in enumerate((svc, lin_svc, rbf_svc, poly_svc)):
# 绘出决策边界,不同的区域分配不同的颜色
plt.subplot(2, 2, i + 1) # 创建一个2行2列的图,并以第i个图为当前图
plt.subplots_adjust(wspace=0.4, hspace=0.4) # 设置子图间隔
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()]) # 将xx和yy中的元素组成一对对坐标,作为支持向量机的输入,返回一个array
# 把分类结果绘制出来
Z = Z.reshape(xx.shape) # (220, 280)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8) # 使用等高线的函数将不同的区域绘制出来
# 将训练数据以离散点的形式绘制出来
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.xticks(())
plt.yticks(())
plt.title(titles[i])
plt.show()