Data Statistics——python系列 seaborn

当我们拿到一组数据,在正式的数据分析之前首先要做到
检查数据
清理数据
测试数据

1.检查数据:一般要回答以下几个问题
  • 数据的格式有什么问题吗?
  • 数据的数值有什么问题吗?
  • 数据需要修复和删除吗?

检查点1:数据格式

  • 首先用 pandas 读取 csv 文件并将数据存成 DataFrame 格式(数据是干净可用的:每一行代表一个样例,每一列代表一个特征
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
#读取数据
iris_data=pd.read_csv('iris-data.csv',na_values=['NA'])
#查看数据 前10行
iris_data.head(10)

在这里插入图片描述
检查点2: 数据统计

#统计值有每列数据的个数 (count),均值 (mean),标准差 (std),最小值 (min),25, 50 和 75 百分位数 (25%, 50%, 75%) 和最大值 (max)
iris_data.describe()
#绘制统计图
sns,pairplot(iris_data.dropna(),hue='class')
#第一个参数 iris_data.dropna() 就是除去 NaN 的数据表
#第二个参数 hue = 'class' 就是根据类 (class) 下不同的值赋予不同的颜色 (hue 就是色彩的意思) 
2.处理错误的数据,主要从以下几点:
  • 数据类别,数据本来分
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值