利用机器学习解决问题的一般流程之0-4数据导入和数据分析_在使用机器学习工具包对数据进行修改、探索和分析之前,我们必须先讲外部数据导入-CSDN博客

本文链接：https://blog.csdn.net/badnetneedweixin/article/details/103149822

本文介绍了使用机器学习解决二分类问题的流程，以Pima Indians糖尿病数据集为例，详细讲解了数据导入，包括python的csv、numpy和pandas库的使用，接着分析数据的维度、属性、描述性统计和相关性，最后通过直方图、密度图、箱线图等进行数据可视化，揭示数据分布和关联。

摘要由CSDN通过智能技术生成

本文主要参考魏贞原先生的《机器学习python实践》

0、本文需要的库

#本文需要的库
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import  GaussianNB
from sklearn.svm import SVC
from sklearn.datasets import load_iris

1、定义问题，获取数据

选择Pima Indians 数据集，这是一个分类问题的数据集，主要记录了印第安人最近五年内是否患糖尿病的医疗数据。这些数据都是以数字的方式记录的，并且输出结果是0 或1 。

2、导入数据

python导入csv文件的三种方法
1、使用python自带的csv库

with open('data/pima.csv','rt') as f:
    readers = csv.reader(f, delimiter=',')
    x = list(readers)
    #因为我的数据里前9行是注释行，所以舍弃
    data = np.array(x[9:])

2、利用numpy 的 loadtxt()函数

with open('data/pima.csv','rt') as f:
	#loadtxt函数貌似会自动忽略注释行
    data = np.loadtxt(f, delimiter=',')

3、利用pandas.read_csv()函数读取

#给数据加特征名称
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv('data/pima.csv',<