利用机器学习解决问题的一般流程之0-4数据导入和数据分析

本文介绍了使用机器学习解决二分类问题的流程,以Pima Indians糖尿病数据集为例,详细讲解了数据导入,包括python的csv、numpy和pandas库的使用,接着分析数据的维度、属性、描述性统计和相关性,最后通过直方图、密度图、箱线图等进行数据可视化,揭示数据分布和关联。
摘要由CSDN通过智能技术生成

本文主要参考魏贞原先生的《机器学习python实践》

0、本文需要的库

#本文需要的库
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import  GaussianNB
from sklearn.svm import SVC
from sklearn.datasets import load_iris

1、定义问题,获取数据

选择Pima Indians 数据集,这是一个分类问题的数据集,主要记录了印第安人最近五年内是否患糖尿病的医疗数据。这些数据都是以数字的方式记录的,并且输出结果是0 或1 。

2、导入数据

python导入csv文件的三种方法
1、使用python自带的csv库

with open('data/pima.csv','rt') as f:
    readers = csv.reader(f, delimiter=',')
    x = list(readers)
    #因为我的数据里前9行是注释行,所以舍弃
    data = np.array(x[9:])

2、利用numpy 的 loadtxt()函数

with open('data/pima.csv','rt') as f:
	#loadtxt函数貌似会自动忽略注释行
    data = np.loadtxt(f, delimiter=',')

3、利用pandas.read_csv()函数读取

#给数据加特征名称
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv('data/pima.csv',<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值