本文主要参考魏贞原先生的《机器学习python实践》
0、本文需要的库
#本文需要的库
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.datasets import load_iris
1、定义问题,获取数据
选择Pima Indians 数据集,这是一个分类问题的数据集,主要记录了印第安人最近五年内是否患糖尿病的医疗数据。这些数据都是以数字的方式记录的,并且输出结果是0 或1 。
2、导入数据
python导入csv文件的三种方法
1、使用python自带的csv库
with open('data/pima.csv','rt') as f:
readers = csv.reader(f, delimiter=',')
x = list(readers)
#因为我的数据里前9行是注释行,所以舍弃
data = np.array(x[9:])
2、利用numpy 的 loadtxt()函数
with open('data/pima.csv','rt') as f:
#loadtxt函数貌似会自动忽略注释行
data = np.loadtxt(f, delimiter=',')
3、利用pandas.read_csv()函数读取
#给数据加特征名称
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv('data/pima.csv',<