数据挖掘(9-22)：数据离散程度+数据清理+三大相关系数+数据库索引(数据库面试常问)+P值含义及理解

本文链接：https://blog.csdn.net/Jasminexjf/article/details/101144545

1.衡量数据离散程度的统计量：

数据的离散程度即衡量一组数据的分散程度如何，其衡量的标准和方式有很多，而具体选择哪一种方式则需要依据实际的数据要求进行抉择。

首先针对不同的衡量方式的应用场景大体归纳如下：

极差：极差为数据样本中的最大值与最小值的差值 R=max(i)-min(i) ，是所有方式中最为简单的一种，它反应了数据样本的数值范围，是最基本的衡量数据离散程度的方式，受极值影响较大。如在数学考试中，一个班学生得分的极差为60，放映了学习最好的学生与学习最差的学生得分差距为60.

四分位差：即数据样本的上四分之一位和下四分之一位的差值 $Q_{d}=Q_{u}-Q_{l}$ ，放映了数据中间50%部分的离散程度，其数值越小表明数据越集中，数值越大表明数据越离散，同时由于中位数位于四分位数之间，故四分位差也放映出中位数对于数据样本的代表程度，越小代表程度越高，越大代表程度越低。

平均差：即 $M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |}{n}$ ，针对分组数据为 $M_{d}=\frac{\sum_{n}^{i=1}\left |x_{n} -\bar{x} \right |f_{i}}{n}$ 。各变量值与平均值的差的绝对值之和除以总数n，平均差以平均数为中心，能全面准确的反应一组数据的离散状况，平均差越大，说明数据离散程度越大，反之，离散程度越小。

方差/标准差：方差是各变量与平均值的差的平方和除以总数n-1 $s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}}{n-1}$ ，针对分组数据 $s^{2}=\frac{\sum_{n}^{i=1}(x_{i}-\bar{x})^{2}f_{i}}{n-1}$ ，方差开根号后为标准差，方差与标准差都能很好的反应数据的离散程度。

异种比率：是指非众数组的频数占总频数的比例。 $V_{r}=\frac{\sum f_{i}-f_{m}}{\sum f_{i}}=1-\frac{f_{m}}{\sum f_{i}}$ 其中 $\sum f_{i}$ 为变量值的总频数，为众数组的频数。异种比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差，即占比越小，异种比率越小，说明众数的代表性越好，即占比越大。异种比率主要适合度量分类数据的离散程度，当然连续数据可以计算异种比率。

离散系数：即变异系数，针对不同数据样本的标准差和方差，因数据衡量单位不同其结果自然无法直接进行对比，为出具一个相同的衡量指标，则进行了离散系数的计算。离散系数为一组数据的标准差与平均数之比 $V_{i}=\frac{s}{\bar{x}}$ 。


import numpy as np
import stats as sts
scores = [31, 24, 23, 25, 14, 25, 13, 12, 14, 23,

          32, 34, 43, 41, 21, 23, 26, 26, 34, 42,

          43, 25, 24, 23, 24, 44, 23, 14, 52,32,

          42, 44, 35, 28, 17, 21, 32, 42, 12, 34]
#集中趋势的度量
print('求和：',np.sum(scores))
print('个数：',len(scores))
print('平均值:',np.mean(scores))
print('中位数:',np.median(scores))
print('众数:',sts.mode(scores))
print('上四分位数',sts.quantile(scores,p=0.25))
print('下四分位数',sts.quantile(scores,p=0.75))
#离散趋势的度量
print('最大值:',np.max(scores))
print('最小值:',np.min(scores))
print