统计分析【一】—— 描述性统计实现

最新推荐文章于 2023-10-28 21:28:17 发布

Pointer_Sky

最新推荐文章于 2023-10-28 21:28:17 发布

阅读量1.7k

点赞数

分类专栏：统计分析文章标签：数据分析统计学

本文链接：https://blog.csdn.net/Pointer_Sky/article/details/106686795

版权

本文介绍了描述性统计的基本概念，包括集中度（均值、众数、中位数）和离散度（极差、方差、标准差、变异系数）的描述与计算。同时，探讨了在不同数据量级下，如何利用Excel、SQL、R语言和Python进行数据处理和统计分析，强调选择工具应以满足需求的便捷性为原则。

摘要由CSDN通过智能技术生成

一、数据统计量描述

1、集中度描述

1.1 均值

1）描述
一组数据的算术平均，反应一组数据的集中分布趋势，缺点是容易受极端值影响。
2）公式
在这里插入图片描述

1.2 众数

一组数据中出现次数最多的数字，可能不止一个，可能没有。适用于当数据具有明显集中趋势的情况。

1.3 中位数

一组数据从小到大排列，位于中间的数据，其中偶数个数的数据为中间两个数据的算术平均，缺点是数据不敏感。

2、离散度描述

2.1 极差

最大值-最小值，反应一组数据的范围大小，极差越大越分散。

2.2 方差

1）描述
反应数据的离散程度，用来度量随机变量与期望的偏差程度。
2）总体方差
在这里插入图片描述

2.3 标准差

1）描述
反应数据的分散程度，为方差的算术平方根。
2）公式
在这里插入图片描述

2.4 变异系数

1）变异系数 = 标准偏差/平均数。
2）当需要比较两组数据的离散程度，但是两组数据量级大小不一致时，可以通过变异系数消除测量尺度带来的影响，但是不适用于平均值较小（接近0）的情况，会带来比较大的误差。
3）变异系数越大，数据越离散。
4）一般来讲，变异系数超过15%则考虑数据异常。
在这里插入图片描述

2.5 贝塞尔校正

在类似正态分布中，样本围绕在均值附近，抽取到边缘值的概率较小，样本值会偏向集中，因此计算出来的样本方差会较小，如果以此来估计整体方差时，需要进行适当放大，即除数修正为N-1。

二、数据处理工具

根据总体样本的大小进行处理的工具有多种，一般数据量级较少时采用EXCEL即可满足需求，数量级较大时（百万级别以上）一般采用SQL、R、python进行处理，须知方法只是作为满足需求的处理工具，一切以满足需要的便捷性出发，无需拘泥于工具本身。

1、EXCEL 函数

1.1、说明
采用 office Excel函数计算及数据分析功能。
1.2、实现


//平均值
=AVERAGE(数据区域)

//众数 数值型
=MODE(数据范围)

//众数文本型
=INDEX(数据范围,MAX(MATCH(数据范围,数据范围,数据范围,)))

//中位数
=MEDIAN(数据范围)

//极差 
=MAX(数据范围)-MIN（数据范围）

//方差
=VAR(数据范围)

//标准差
=STDEV(数据范围)

//变异系数
=STDEV(数据范围)/AVERAGE(数据区域)