当我们拿到一组数据,在正式的数据分析之前首先要做到
检查数据
清理数据
测试数据
1.检查数据:一般要回答以下几个问题
- 数据的格式有什么问题吗?
- 数据的数值有什么问题吗?
- 数据需要修复和删除吗?
检查点1:数据格式
- 首先用 pandas 读取 csv 文件并将数据存成 DataFrame 格式(数据是干净可用的:每一行代表一个样例,每一列代表一个特征)
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
#读取数据
iris_data=pd.read_csv('iris-data.csv',na_values=['NA'])
#查看数据 前10行
iris_data.head(10)
检查点2: 数据统计
#统计值有每列数据的个数 (count),均值 (mean),标准差 (std),最小值 (min),25, 50 和 75 百分位数 (25%, 50%, 75%) 和最大值 (max)
iris_data.describe()
#绘制统计图
sns,pairplot(iris_data.dropna(),hue='class')
#第一个参数 iris_data.dropna() 就是除去 NaN 的数据表
#第二个参数 hue = 'class' 就是根据类 (class) 下不同的值赋予不同的颜色 (hue 就是色彩的意思)
2.处理错误的数据,主要从以下几点:
- 数据类别,数据本来分