基于《机器学习-Python实践》学习笔记——数据导入与基本处理

最新推荐文章于 2023-11-07 17:31:35 发布

chaosjey li

最新推荐文章于 2023-11-07 17:31:35 发布

阅读量201

点赞数

分类专栏： Python 机器学习

本文链接：https://blog.csdn.net/weixin_39040981/article/details/111113365

版权

Python 同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

机器学习

9 篇文章 1 订阅

订阅专栏

数据导入

数据常以CSV格式储存，一般有三种导入方式：

标准Python库
reader函数：raeder处理文件中以逗号分隔的第一行数据，并将每一个数据作为一个元素存储在列表中。

from csv import reader
import numpy as np
# 使用标准的Python类库导入CSV数据
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    readers = reader(raw_data, delimiter=',')
    x = list(readers)
    data = np.array(x).astype('float')
    print(data.shape)

NunPy导入数据
使用loadtxt导入数据

from numpy import loadtxt
# 使用numpy导入CSV数据
filename = 'pima_data.csv'
with open(filename, 'rt') as raw_data:
    data = loadtxt(raw_data, delimiter=',')
    print(data.shape)

pandas导入数据
使用pandas.read_csv函数，且函数的返回值是dataframe类型。

from pandas import read_csv
# 使用Pandas导入CSV数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)

数据的理解

简单查看数据
使用head函数：dataframe.head()：前五行
使用tail() 函数，读取后几行

from pandas import read_csv
# 显示数据最初10行
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
peek = data.head(10)
print(peek)

数据的维度
shaoe查看数据的维度，几行几列。

from pandas import read_csv
# 显示数据的行和列数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.shape)

数据的属性和类型
用dataframe.dtypes函数

from pandas import read_csv
# 显示数据的行和列数据
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.dtypes)

数据描述
dataframe.describe函数
输出了每类的个数、均值、标准差、最小值、下四分位数、中位数、上四分位数、最大值。

from pandas import read_csv
from pandas import set_option
# 描述性统计
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
set_option('display.width', 100)
# 设置数据的精确度
set_option('precision', 4)
print(data.describe())

数据分组分布
即数据的分类情况（在数据已有标签的情况下，每个标签作为一类）
用dataframe.groupby(‘标签的组名’).size()

from pandas import read_csv
# 数据分类分布统计
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.groupby('class').size())

数据相关性
用dataframe.corr(method=‘指定的求相关性方法’)
会得到各组两两间的相关系数矩阵。

from pandas import read_csv
from pandas import set_option
# 显示数据的相关性
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
set_option('display.width', 100)
# 设置数据的精确度
set_option('precision', 2)
print(data.corr(method='pearson'))

数据的分布分析
可以用skew()函数计算每组数据的高斯分布偏离情况。

from pandas import read_csv
# 计算数据的高斯偏离
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
print(data.skew())

数据的可视化

直方图
data.hist() 常用横轴表示类别，纵轴表示分布情况

from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.hist()
plt.show()

密度图

from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.plot(kind='density', subplots=True, layout=(3,3), sharex=False)
plt.show()

箱线图

from pandas import read_csv
import matplotlib.pyplot as plt
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
data.plot(kind='box', subplots=True, layout=(3,3), sharex=False)
plt.show()

相关矩阵图

from pandas import read_csv
import matplotlib.pyplot as plt
import numpy as np
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
correlations = data.corr()
fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(correlations, vmin=-1, vmax=1)
fig.colorbar(cax)
ticks = np.arange(0, 9, 1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

散点矩阵图

from pandas import read_csv
import matplotlib.pyplot as plt
from pandas.plotting import scatter_matrix
filename = 'pima_data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = read_csv(filename, names=names)
scatter_matrix(data)
plt.show()

chaosjey li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于《机器学习-Python实践》学习笔记——数据导入与基本处理

数据导入数据常以CSV格式储存，一般有三种导入方式：标准Python库reader函数：raeder处理文件中以逗号分隔的第一行数据，并将每一个数据作为一个元素存储在列表中。from csv import readerimport numpy as np# 使用标准的Python类库导入CSV数据filename = 'pima_data.csv'with open(filename, 'rt') as raw_data: readers = reader(raw_data, d
复制链接

扫一扫

专栏目录