在数据维度达到一定的量时,推荐使用支持向量机 (SVM)算法, 因为它在高维空间中也能够快速高效地进行分类。
下面介绍一个简单的操作步骤。
1.输入数据集,分析数据维度,可以看到共有0,1,2,3四个类别。
import pandas as pddf=pd.DataFrame({'math':[98,78,54,89,24,60,98,44,96,90],'english':[92,56,90,57,46,75,76,87,91,88],'chinese':[95,69,91,52,60,80,78,81,96,82],'rank':[0,3,2,3,1,1,2,2,0,0]})
2.导入svm工具包。没有安装sklearn的要先安装svm。
from sklearn import svm
3.数据准备。本例中数据都是数值型变量,且没有空值,直接取X,y变量。
X=df.ix[:,['math','english','chinese']]
y=df['rank']
4.建立模型,并进行训练。
clf = svm.SVC()
clf.fit(X, y)
5.模型预测。有一组新的