数据探索与可视化:数据描述-上

目录

一.导读

二.数据描述统计

1.介绍

2.数据集中位置

3.离散程度

三.结尾


一.导读

在对数据缺失值填充的学习完成之后我们来对数据描述进行学习。

二.数据描述统计

1.介绍

数据描述统计是通过分析数据的统计特征,让我们对数据的理解程度能够加深,从而利用合适的机器学习方法,对数据集进行数据分析,数据的描述统计有四个部分:数据集中位置,离散程度,偏度和峰度以及单个数据变量的分布情况,本篇先从数据集中和离散程度入手。

2.数据集中位置

概念:寻找反应事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好反映事物目前所处的位置和发展水平,通过对事物集中趋势指标的多次测量和比较,还能够说明事物的发展和变化趋势。

描述数据集中位置的统计量主要有几何平均值、加权均值、算数均值、中位数、众数等。下面我们通过代码对数据进行处理:

import pandas as pd
Iris=pd.read_csv(".csv")
Iris2=Iris.drop(["Id","Species"],axis=1)
print(Iris2.head())

准备之前,我们先读取数据,然后把种类和编号的无关的,有影响数据的信息项进行剔除。

然后我们要对描述每一个数据项的数据集中位置的统计量表示出来,如下:

print("均值:\n",Iris2.mean())
print("中位数:\n",Iris2.median())
print("众数:\n",Iris2.mode())

均值对应的是mean方法,中位数对应的是median方法,众数对应的是,mode方法,结果如下: 

 

3.离散程度

而离散程度的描述统计量有:方差、标准差、变异系数、分位数和极差等。其中,方差和标准差取值越大,表明数据离散程度越大,且方差是标准差的平方;变异系数是度量观测数据的标准差相对于均值的离中趋势,计算公式为均值除以标准差,变异系数越大则数据越分散;极差为数据最大值与最小值之差,极差越小说明数据越集中,更多解释我们在以下这篇文章加以介绍:

那么离散程度的各个统计量的方法如下:

print("方差:\n",Iris2.var())
print("标准差:\n",Iris2.std())
print("变异系数:\n",Iris2.mean()/Iris2.std())
print("极差:\n",Iris2.max()-Iris.min())
print("分位数:\n",Iris2.quantile(q=[0,0.25,0.5,0.75,1]))

方差对应的是var方法,标准差对应std,极差通过概念我们可以知道是最大值与最小值的差值于是如上所写,接着是分位数,我们将数据分位四等分,每0.25一等分,将每一部分的数据项依次罗列,则如下: 

 

三.结尾

在之后我们就对后两个数据描述统计量:偏量与峰量以及单个变量的分布情况加以介绍,希望大家能动手实践一下。 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值