最近学习机器学习,用博客来记录一些笔记。如果涉及侵权联系删除。
一、数据理解
1.数据导入(CSV文件)
- 使用标准Python类库导入数据
#使用标准Python类库导入CSV文件
from csv import reader
import numpy as np
filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
readers = reader(raw_data,delimiter=',')
x = list(readers)
data = np.array(x).astype('float')
print(data.shape)
使用Numpy导入数据
#使用Numpy导入CSV数据
from csv import reader
from numpy import loadtxt
filaname = 'pima_data.csv'
with open(filaname,'rt') as raw_data:
data = loadtxt(raw_data,delimiter=',')
print(data.shape)
- 使用Pandas导入数据
#使用Pandas导入数据
from pandas import read_csv
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
print(data.shape)
2.数据理解
- 简单的查看数据,数据的维度(行和列),数据的属性和类型
#查看数据前10行
from pandas import read_csv
filaname = 'pima_data.csv'
names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = read_csv(filaname,names=names)
peek = data.head(10)
print(peek)#显示数据的前10行
print(data.shape)#显示数据的行和列数据
print(data.dtypes)#显示数据属性和类型
- 描述性统计(包含数据记录数,平均值&