采集到一批样本,第一列是类别,后面的几列为属性对应的数值,
我们的目的:通过属性数值对该样本分类
思路:svm线性分类器。将样本分为train,test,进行训练,保存模型,然后再对test进行预测。利用混淆矩阵观察预测率
1.数据源
类别有很多。
2.构建数据(数据规约)
#coding=utf-8
import pandas as pd
inputfile='chapter9/demo/data/moment.csv'
data=pd.read_csv(inputfile,encoding='gbk')
data=data.as_matrix()
from random import shuffle
date=shuffle(data)
data_train=data[:int(0.8*len(data)),:]
data_test=data[int(0.8*len(data)):,:]
x_train=data_train[:,2:]*30
y_train=data_train[:,0].astype(int)
x_test=data_test[:,2:]*30
y_test=data_test[:,0].astype(int)
3.模型——构建支持向量机(机器学习,监督学习)
#model
from sklearn import svm
model=svm.SVC()