数据探索与可视化：数据描述-上

Cosophia

已于 2024-01-30 01:13:08 修改

阅读量384

点赞数 6

分类专栏：数据探索与可视化文章标签：数据分析机器学习人工智能

于 2024-01-28 20:46:02 首次发布

本文链接：https://blog.csdn.net/Cosophia/article/details/135898368

版权

数据探索与可视化专栏收录该内容

17 篇文章 0 订阅

订阅专栏

一.导读

在对数据缺失值填充的学习完成之后我们来对数据描述进行学习。

二.数据描述统计

1.介绍

数据描述统计是通过分析数据的统计特征，让我们对数据的理解程度能够加深，从而利用合适的机器学习方法，对数据集进行数据分析，数据的描述统计有四个部分：数据集中位置，离散程度，偏度和峰度以及单个数据变量的分布情况，本篇先从数据集中和离散程度入手。

2.数据集中位置

概念：寻找反应事物特征的数据集合的代表值或中心值，这个代表值或中心值可以很好反映事物目前所处的位置和发展水平，通过对事物集中趋势指标的多次测量和比较，还能够说明事物的发展和变化趋势。

描述数据集中位置的统计量主要有几何平均值、加权均值、算数均值、中位数、众数等。下面我们通过代码对数据进行处理：

import pandas as pd
Iris=pd.read_csv(".csv")
Iris2=Iris.drop(["Id","Species"],axis=1)
print(Iris2.head())

准备之前，我们先读取数据，然后把种类和编号的无关的，有影响数据的信息项进行剔除。

然后我们要对描述每一个数据项的数据集中位置的统计量表示出来，如下：

print("均值：\n",Iris2.mean())
print("中位数：\n",Iris2.median())
print("众数：\n",Iris2.mode())

均值对应的是mean方法，中位数对应的是median方法，众数对应的是，mode方法，结果如下：

3.离散程度

而离散程度的描述统计量有：方差、标准差、变异系数、分位数和极差等。其中，方差和标准差取值越大，表明数据离散程度越大，且方差是标准差的平方；变异系数是度量观测数据的标准差相对于均值的离中趋势，计算公式为均值除以标准差，变异系数越大则数据越分散；极差为数据最大值与最小值之差，极差越小说明数据越集中，更多解释我们在以下这篇文章加以介绍：

那么离散程度的各个统计量的方法如下：

print("方差:\n",Iris2.var())
print("标准差:\n",Iris2.std())
print("变异系数:\n",Iris2.mean()/Iris2.std())
print("极差:\n",Iris2.max()-Iris.min())
print("分位数:\n",Iris2.quantile(q=[0,0.25,0.5,0.75,1]))

方差对应的是var方法，标准差对应std，极差通过概念我们可以知道是最大值与最小值的差值于是如上所写，接着是分位数，我们将数据分位四等分，每0.25一等分，将每一部分的数据项依次罗列，则如下：