《从零进阶！数据分析的统计基础》-2.描述性统计分析

最新推荐文章于 2024-04-23 18:23:39 发布

Tobesix

最新推荐文章于 2024-04-23 18:23:39 发布

阅读量1.1k

点赞数

分类专栏：《从零进阶！数据分析的统计基础》文章标签：数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/intricate_/article/details/105408387

版权

《从零进阶！数据分析的统计基础》专栏收录该内容

6 篇文章 11 订阅

订阅专栏

目录：

第二章描述性统计分析

2.2数据的计量尺度

2.3数据的集中趋势

2.3.1定量数据：平均数

2.3.2顺序数据：中位数和分位数

2.3.3分类数据：众数

2.4数据的离中趋势

2.4.4方差和标准差

2.4.5离散系数

2.5数据分布的测度

2.5.1数据偏态及其测定

2.5.2数据峰度及其测定

2.5.3数据偏度和峰度的作用

2.6数据的展示--统计图

2.6.1条形图与扇形图

2.6.5统计图小结

2.7使用Excel实现数据的描述性统计分析

第二章描述性统计分析

2.1直方图

直方图分为两种：

1.频数分布直方图：长方形的面积代表对应组的频数与组距的比

2.频率分布直方图：长方形的高代表频数

"输入区域"输入待分析数据区域的单元格引用

"接受区域"输入接受区域的单元格引用（上图使用了10-100），该框可为空，则系统自动利用输入区域中的最小值和最大值建立平均分布的区间间隔的分组。

"输出选项"中可以选择输出去向

选择"柏拉图"可以在表中同时按降序排列频数数据；选择"累计百分比"可以在输出表中增加一列累计百分比数值，并绘制一条百分比曲线；选择"图表输出"可以生成一个嵌入式直方图

2.2数据的计量尺度

数据的计量尺度是指对计量对象量化时采用的具体标准，它分为四类：定类尺度、定序尺度、定距尺度和定比尺度。

前两种为定性数据，后两种为定量数据

定类尺度

定类尺度计量的数据表现为"类别"，各类之间无等级次序，只能用来比较相等或不相等，如性别、民族

定序尺度

定类尺度也用来描述一个对象的类别，但与定类尺度不同的是，定序尺度的类别具有内在固定的大小或高低顺序，可以比较大小，例如职称、健康状况、质量等级等。

定距尺度

定距尺度不仅能将事物区分为不同类型并进行排序，而且可以准确地指出类别之间的差距是多少。定距尺度的计量数据表现为数值，可以进行排序也可以比较大小，还可以进行加减运算，例如年份、摄氏度、温度、纬度等

定比尺度

定比尺度也称比率尺度，它实在定距尺度的基础上还存在可以作为比较的共同起点或基数。它除了具有定类、定序、定距三种计量尺度的全部特性外，还可以进行乘除运算，例如质量、长度和能量等

2.3数据的集中趋势

2.3.1定量数据：平均数

平均数是描述定量数据的集中趋势，是最常用的一种测度值。主要适用于数值型数据，而不适用于分类数据和顺序数据

2.3.2顺序数据：中位数和分位数

中位数将全部数据分成两部分，每部分包含50%的数据，与中位数类似的还有四分位数、十分位数、百分位数等，主要适合作为顺序数据的集中趋势测度值

2.3.3分类数据：众数

众数是指一组数据中出现次数最多的变量值。主要适合作为分类数据的集中趋势测度值

2.4数据的离中趋势

离中趋势在统计学中是指一组数据向某一中心值分散的程度。

2.4.1极差

极差也叫全距，是一组数据中的最大值与最小值的差距，它能说明数据组中各数据值的最大变动范围。

2.4.2分位距

分位距是对全距的一种改进，它是从数据中剔除了一部分极端值之后重新计算的类似于全距的指标。常用的有四分位距、八分位距和十分位距，

四分位距=（第三个四分位数-第一个四分位数）/ 2

2.4.3平均差

平均差是数据中各数据与其算术平均数离差绝对值的算术平均数，常用符号M.D表示

$M.D=\frac{\sum \left | x-\bar{x} \right |}{n}$

平均差是根据数列中所有数值计算出来的，受极端值影响较小，所以对整个统计数列的离中趋势有较充分的代表性。

2.4.4方差和标准差

方差是数据组中各数据值与其算术平均数离差平方的算术平均数，用符号 $\sigma ^{2}$ 表示。方差的平方根就是标准差。

$\sigma =\sqrt{}\frac{\sum_{i=1}^{n}(x-\bar{x})^{2}}{n}$

标准差既克服了平均差计算中用绝对值取消离差正负号带来的弊病，又增加了指标本身的"灵敏度"。

标准差的性质：

1.标准差度量了偏离平均数的大小

2.标准差是一类平均偏差

3.标准差指出了数列中的数离它们的平均数有多远，一般来讲，一个数列中约68%的项在离平均数的1个 $\sigma$ 范围内，约95%的数据在距平均数的2个 $\sigma$ 范围内，其余5%则远离之。

2.4.5离散系数

极差、平均差、标准差都是对数据离中趋势进行绝对或平均差异的测定。要比较数据平均水平不同的两组数据的离中程度大小，就用到了离散系数。常用的离散系数指标是标准差系数。

标准差系数=标准差/算术平均数，例题：判断哪个班的成绩更有代表性

$V_{\sigma }=\frac{\sigma }{\bar{x}}$

2.5数据分布的测度

一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线，将曲线的尖峭程度和对称性与正态分布曲线相比较，其测试指标包括偏态和峰度。

2.5.1数据偏态及其测定

数据分布的不对称性称作偏态。分为右偏和左偏，当众数在左边，平均数在右边时，即数据的极端值在右边，数据分布曲线向右延伸，称为右偏态或正偏，相反则称为左偏态或负偏。

偏态的计算方法，偏态系数SK公式：

$SK=\frac{n}{(n-1)(n-2)}\sum (\frac{x_{i}-\bar{x}}{\sigma })^{3}$

SK=0时，分布是对称的

SK<0时，分布呈负偏态，SK值越小，负偏程度越高

SK>0时，分布呈正偏态，SK值越大，正偏程度越高

对于偏态分布的数据，平均数的代表性较差，此时应考虑中位数或众数

2.5.2数据峰度及其测定

峰值是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度，峰度一般可表现为三种形态：尖顶峰度、平顶峰度和标准峰度。它们都是相对于正态分布曲线的标准峰度而言的。

测定峰度的指标是峰度系数K，公式如下：

$K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum (\frac{x_{i}-\bar{x}}{\sigma })^{4}-\frac{3(n-1)^{2}}{(n-2)(n-3)}$

K<0时，与正态分布相比该分布一般为扁平、瘦尾、肩胖

K>0时，与正态分布相比该分布一般为尖峰、肥尾、肩瘦

2.5.3数据偏度和峰度的作用

2.6数据的展示--统计图

2.6.1条形图与扇形图

2.6.2折线图

2.6.3茎叶图

绘制茎叶图时，一般将每个数据分为茎(高位)和叶(低位)两部分。举例：

以百位和十位为茎，个位数为叶，茎叶图如下所示：

2.6.4箱线图

箱线图又称为盒须图、盒式图或箱型图，是一种用于显示一组数据分散情况的统计图。

箱线图主要包含六个数据节点，将一组数据从大到小排列，分别计算出它的上边缘、上四分位数、中位数、下四分位数、下边缘，还有一个异常值。其中●代表异常值，*代表极端的异常值。

2.6.5统计图小结

2.7使用Excel实现数据的描述性统计分析

数据分析-描述统计

然后可以看到数据的描述性统计分析：

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
《从零进阶！数据分析的统计基础》-2.描述性统计分析

目录：第二章描述性统计分析2.1直方图2.2数据的计量尺度定类尺度定序尺度定距尺度定比尺度2.3数据的集中趋势2.3.1定量数据：平均数2.3.2顺序数据：中位数和分位数2.3.3分类数据：众数2.4数据的离中趋势2.4.1极差2.4.2分位距2.4.3平均差2.4.4方差和标准差2.4.5离散系数2.5数据分布的测度2...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。