python数据分析及可视化（二）离散程度、标准化值、分布形态、描述性统计图表

hwwaizs

已于 2022-07-21 23:26:40 修改

阅读量3.9k

点赞数 2

分类专栏： python数据分析文章标签： python 爬虫 pycharm

于 2021-11-23 16:01:53 首次发布

本文链接：https://blog.csdn.net/hwwaizs/article/details/121451733

版权

python数据分析专栏收录该内容

20 篇文章 90 订阅

订阅专栏

描述性统计

平均指标

调和平均数

算术平均数的变种，本质跟算术平均数是一致的。
定义：变量值倒数的算术平均值的倒数。表示的符号： $H$
调和平均数(根据未分组数据计算的)： $H=\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}}$
注意：
• 所有数据需大于0
• 容易受到异常值的影响
在这里插入图片描述
$\frac{n}{\frac{1}{x_1}+\frac{1}{x_2}+...+\frac{1}{x_n}} = (\frac{1200^{-1}+1000^{-1}+1500^{-1}}{3})^{-1} = \frac{3}{\frac{1}{1200}+\frac{1}{1000}+\frac{1}{1500}}$

倒数本身就是伪装的乘法，倒数可以更加便捷的帮助除以分数。
5/(3/7) = 5*(7/3) = 35/3
5/(3/7) = (5/1)/(3/7) = (35/7)/(3/7) = 35/3
调和平均数可以帮助我们能在不担心共同分母的情况下找到对应的乘/除关系。所以，调和平均数有助于处理周期不同的比率的数据集。

例题：某人去超市买东西，路程s = 5 miles，去时速度v = 30 mph，返回时速度v = 10 mph，求整个行程的平均速度。

解法1：
$加权平均数 = V_1*去程所花时间的权重 + V_2*返程所花时间的权重$

去程所花的时间 $s = v * t$ ，除以60是进行时间单位的换算
$t_1$ = 5/(30/60) = 10 min
返程所花的时间
$t_2$ = 5/(10/60) = 30 min
计算加权平均数，总时间 $t = t_1+t_2$
$v$ = (30*(10/40)) + (10*(30/40)) = 15

解法2：调和平均数计算，适用于周期不同的数据。
$v$ = 2/((1/30)+(1/10)) = 15

均值不等式

对于同一组数据，一定满足：

$算术平均数\geq几何平均数\geq调和平均数$

当所有数据取值相同的时候，等号成立。算术平均数和几何平均数都受较大值的影响较大，算术平均数影响更大；调和平均数受到最小值的影响较大。
几种平均数的用法：

数据呈现直线，使用算术平均数
周期一致，数据呈现乘数级或指数级增长的时候，使用几何平均数
周期不一致，量级也不一致，呈现乘数级或指数级增长，使用调和平均数

离散程度描述

反映各变量值远离其中心值得程度，是数据分布的另一个重要特征。观察数据时看数据主要分布在哪一块，异常点在哪，根据数据去除异常值，要观察离散程度，单一的、集中的指标不足以衡量的，二者结合才能证明数据是集中性比较强的。
主要衡量指标：
1.极差
2.平均差
3.标准差
4.变异系数

极差

一组数据的最大值与最小值之差。表示的符号为： $R$ ，计算公式为： $R = ma x (x) - min (x)$ 。
如：A：100 800 900 1000 1100 1200 3000；B：100 200 300 400 500 600 3000。 A和B 的极差均为 3000-100 = 2900，单看极差值可以看到A和B的离散程度是相同的，其实并不是。
特点：离散程度的最简单测度值；极易受极端值影响；未考虑数据的分布。因此，我们很少用它来衡量数据的离散程度。

平均差（离差）

各变量值与其均值差绝对值的平均数。表示的符号为： $M_d$ ，
计算公式为： $M_d=\frac{\sum_{i=1}^n|x_i-\bar{x}|}{n}$
例题：计算3 6 6 7 8 11 15 16 的平均差
数据相加后除以数据的个数8，求得数据的平均值为9，然后求每个数距离9的差值的绝对值（即3-9，6-9等等的绝对值），相加除以数据的个数8，就得平均差为3.75
在这里插入图片描述

特点：
• 能全面反映一组数据的离散程度。平均差越大，数据离均值越远，也就是越分散；平均差越小，数据离均值越近，表明数据越集中。
• 数学性质较差，对绝对值求导不易计算，实际应用较少。
可以用方差解决此类问题，对数据进行平方进行计算。

方差和标准差

总体方差定义：变量值与其算术平均数的离差的平方的算术平均数。
总体方差表示符号： $\sigma^2$
总体方差公式： $\sigma^2=\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}$ ， $\mu$ 表示均值

为了解决计算量的问题，我们使用标准差：
总体标准差表示符号： $\sigma$
总体标准差公式： $\sigma=\sqrt{\frac{\sum_{i=1}^N(x_i-\mu)^2}{N}}=\sqrt{\sigma^2}$

特点：
• 数据离散程度最常用的测度值，最常用的衡量数据离散程度的指标
• 反映了各变量值与均值的平均差异，标准差越大，数据离平均值的差异越大，数据就越离散；标准差越小，数据离平均值的差异就越小，数据就越集中。
例题1：针对被动涨薪的问题，深入剖析，数据单位为万元。
A市薪资：[1.72,1.70,1.68,1.71,1.69]
B市薪资：[1.70,5.20,0.60,0.2,0.8]
在这里插入图片描述

例题2：如果把A城市的薪资单位改为元呢？数据如[17200.0, 17000.0, 16800.0, 17100.0, 16900]

变异系数

变异系数(离散系数)是标准差与均值之比，符号位 $V_s$ 。
计算公式为： $V_s=\frac{S}{\bar{x}}$

特点：
• 是对数据相对离散程度的测度
• 消除了数据水平不同和数据计量单位不同对数据离散程度的影响
• 常用于对不同组别数据离散程度的比较
在这里插入图片描述
B城市薪资的变异系数为A城市的100多倍，剔除了单位对数据的影响。

标准化值（重要）

集中型数据衡量的指标是均值，离散型数据衡量的指标是标准差，可以使用均值和标准差来实现标准化值。

导入

分析中国人寿命超过81岁的概率，已知如下：均值为80，标准差为0.5。
在这里插入图片描述

先进行取样，只要基数够大，都会趋向于正态分布，可以使用样本去推整体。根据条件绘制出概率密度曲线如上图所示，对于概率密度曲线来说，面积表示的是概率，所以超过81岁人的概率就转化为求出81岁右边曲线内的面积。直接用积分求面积会很复杂，可以利用标准化求解。

标准化

作用：标准化将服从正态分布的数据集变为了均值为0，标准差为1的标准正态分布。
表示符号： $Z_i$
公式： $Z_i = \frac{x_i-\bar{x}}{S}$

很多情况下，只要数据服从正态分布，我们都会将其转化为标准正态分布，假设我们求的是标准正态分布中<1的概率，就是查找标准正态分布概率表中x+y=1.0的那个值，就是对应的面积（概率），概率和位1，所以用1减去前面的概率就得到后面的概率值。
如何转为正态分布？
1.分子去均值化，均值为0，平移到原点位置。80平移到0，81平移到1，79平移到-1位置。
2.分母标准差变为1，如图形的标准差为0.5，若要将标准差变为1，则除以标准差0.5就可以了，其实为图形的伸缩。.
在这里插入图片描述
在表中，x横轴负责小数位的查找。
这时就转换为了求81右边的面积如何转化为标准差，(81-80)/0.5 = 2，通过查表可以得到，小于2的概率为0.9772，那么大于2的概率为1-0.9772 = 0.228，也即是81岁以后的概率。

标准化将原始的数据进行线性的转换，没有改变某个数据在整个数据中的位置，是整体迁移过去的，也没有改变数据分布的形状。
标准化表示的是原始数据与样本均值的差值，是标准差的多少倍。在帮助我们进行线性变化之外，还帮助我们在面对大量数据时，筛选离群值。

经验法则

可以借助经验法则筛选离群点。
如果一组数据是对称分布的，则有如下规律：
• 约有68%的数据在平均数加减1个标准差的范围之内
• 约有95%的数据在平均数加减2个标准差的范围之内
• 约有99%的数据在平均数加减3个标准差的范围之内
在这里插入图片描述
可以借助这个法则去筛选离群点。

分布形态

集中趋势和离散程度表示的是数据分布的两个重要特征，在计算均值和标准差时常使用，如果要全面的观察数据，就要了解数据的分布形态。
数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。我们都称为分布的形态，最直接的观察是直方图，可以呈现出数据组中出现的频次。下面的图形是最简单的对称分布，如果出现的数据不是对称分布，我们就要了解数据的分布，从哪几个角度去观察和着手去分析，就要用到偏态和峰态。
在这里插入图片描述

偏态

偏态是指数据分布的偏斜程度。
众数：数据中出现最多的特性
中位数：从小到大排序，中间的那个数。说明有一半是低于或者高于中位数的
均值：描述数据的平均水平
在这里插入图片描述
对称：三者相等
右偏：图形的尾巴往哪边拖长，说明那边的数据分布的越多，就是往哪边偏。越往轴的右边，说明数据越大，平均值会受到偏大值得影响，均值会在中位数的右边。众数在最高峰处，中位数是数据中最中间的数，在众数和均值中间，所以众数 < 中位数 < 均值。
左偏：图形的尾巴往左边拖长，而轴左侧的数据越来越小，左侧分布的数据比较多，有较多的小值，均值受到影响会最小，所以均值 < 中位数 < 众数。

偏态系数

使用偏态系数来测量数据的偏态，使用 $S K$ 表示。
偏态系数计算的公式： $\frac{n\sum_{}(x_i-\bar{x})^3}{(n-1)(n-2)s^3}$

在这里插入图片描述
不管是左偏还是右偏，要记住每一种状态的特性，最终都需要回归正态分布。

峰态

指的是数据分布峰部的尖度。使用峰态系数衡量，符号： $K$ 。
偏态系数计算公式为： $\frac{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^4}{(\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2)^2}-3$

在这里插入图片描述
假设蓝色的线是正态分布，红色的线低于正常数据分布，峰态系数小于0，就是扁平分布；峰态系统大于0，数据比较拔高，大部分数据都集中于峰处，数据集中性比较好，为尖峰分布。
正态分布的峰度：K=3；均匀分布的峰度：K=1.8

描述性统计图表

以下数据为电影票房，请陈述出票房最高的电影以及票房最低的电影。
b=[56.01,26.94,17.53,16.49,15.45,12.96,11.8,11.61,11.28,11.12,10.49,10.3,8.75,7.55,7.32,6.99,6.88,6.86,6.58,6.23,5.22]

可以将数据转化为图形，就可以更加直观的看到数据的分布。在统计学与数据分析中，最核心的是数据，为了更加方便、快速的去捕获数据所呈现的信息，数据中有比较多的离群值，可以借助图表更加快速的掌握数据的分布形态及走势，对数据的可视化就必不可少。数据可视化的工具有很多，如matplotlib、pyecharts
在这里插入图片描述

直方图

由一系列高度不等的矩形表示数据分布的情况。频数分布直方图：横轴按组距分类，纵轴表示频数。
组数：把数据按照不同的范围分成几个组，分成的组的个数称为组数
组距：每一组数据的极差
特点：
• 能够显示各组频数分布的情况
• 易于显示各组之间频数的差别，可以绘制概率密度曲线
在这里插入图片描述

散点图

由一系列高度不等的矩形表示数据分布的情况。散点图是数据点在平面直角坐标系上的分布图，表示因变量随自变量而变化的大致趋势，没有用线连接，就是每一个数据点。
特点：
• 展示数据的分布情况
• 发现变量之间的关系，如x和y轴的关系
在这里插入图片描述

箱型图

箱型图主要显示一组数据分散情况。
在这里插入图片描述
黄色的线表示的是中位数，也为二分位数，最上面和最下面的点为离群值，离核心的数据非常远了，直接求均值的话会受到影响，就要去掉。箱体越短，说明数据越集中，最大值与最小值离箱体越接近，表明25%之前和75%以后的数据都非常接近，整体越窄，数据越集中。
箱型图富含的信息比较大，直接把数据可视化为箱型图，更便捷的发现数据的分布。