数据统计分析(4):数据的离散程度描述

极差

极差又被称为范围差或全距(Range),以R表示,是用来表示统计资料中的变异量数,其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差是其中一种。极差不能用做比较,单位不同,方差能用做比较,因为都是个比率。

计算公式:

最直接也是最简单的方法,即最大值-最小值(也就是极差)来评价一组数据的离散度。这一方法在日常生活中最为常见,比如比赛中去掉最高最低分就是极差的具体应用。极差=最大标志值—最小标志值 [1] 

R=xmax-xmin(其中,xmax最大值,xmin为最小值)

 

平均偏差

平均偏差是数列中各项数值与其算术平均数的离差绝对值的算术平均数。平均偏差是用来测定数列中各项数值对其平均数离散程度的一种尺度。平均偏差可以分为简单平均偏差加权平均偏差

在统计中,如果要反映出所有原数据间的差异,就要在各原数据之间进行差异比较,当原数据较多时,进行两两比较就很麻烦,因此需要找到一个共同的比较标准,取每个原数据值与标准值进行比较。这个标准值就是算术平均数。

平均偏差就是每个原数据值与算术平均数之差的绝对值的均值,用符号A.D.(average deviation)表示。平均偏差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。

平均偏差是反映各标志值与算术平均数之间的平均差异。平均偏差越大,表明各标志值与算术平均数的差异程度越大。该算术平均数的代表性就越小;平均偏差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

平均偏差又有简单平均偏差和加权平均偏差之分。

 

计算公式:

  • 简单平均偏差

如果原数据未分组,则计算平均偏差的公式为:

该式称为简单平均偏差。

  • 加权平均偏差

在分组情况下,平均偏差的计算公式为:

该式称为加权平均偏差。 [1] 

 

方差和标准差

方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

 

统计学意义:

      当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 [6] 

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:

标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

 

标准差

      标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。

 

 

 

变异系数

      变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的对比。CV没有量纲,这样就可以进行客观比较了。事实上,可以认为变异系数和极差,标准差和方差一样,都是反映数据离散程度的绝对值。其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。

 

定义:

概率论统计学中,变异系数,又称“离散系数”(英文:coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差平均值之比:

变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况。变异系数也被称为标准离差率单位风险

 

计算公式:

(标准偏差SD、平均值MN)

 

优缺点:

  • 优点

比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量,因此在比较两组量纲不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

  • 缺陷

当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。

变异系数无法发展出类似于均值的置信区间的工具。

 

四分位差

四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1, 即位于25%)的差。

计算公式为:Q = Q3-Q1

四分位数是将一组数据由小到大(或由大到小)排序后,用3个点将全部数据分为4等份,与这3个点位置上相对应的数值称为四分位数,分别记为Q1(第一四分位数),说明数据中有25%的数据小于或等于Q1,Q2(第二四分位数,即中位数)说明数据中有50%的数据小于或等于Q2、Q3(第三四分位数)说明数据中有75%的数据小于或等于Q3。其中,Q3到Q1之间的距离的差的一半又称为分半四分位差,记为(Q3-Q1)/2。

 

四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。对于数值型数据也可以计算四分位差,但不适合分类数据。

 

 

  • 16
    点赞
  • 76
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
- 1 - 空间数据分析报告 —使用 Moran's Moran's Moran's Moran's I I I I 统计法实现空间自相关的测度 1 1 1 1、实验目的 (1)理解空间自相关的概念和测度方法。 (2)熟悉 ArcGIS 的基本操作,用 Moran's I 统计法实现空间自相关的测度。 2 2 2 2、实验原理 2.1 2.1 2.1 2.1 空间自相关 空间自相关的概念来自于时间序列的自相关,所描述的是在空间域中位置 S 上的变量与其邻近位置 Sj 上同一变量的相关性。对于任何空间变量(属性)Z, 空间自相关测度的是 Z 的近邻值对于 Z 相似或不相似的程度。如果紧邻位置上 相互间的数值接近, 我们说空间模式表现出的是正空间自相关;如果相互间的数 值不接近,我们说空间模式表现出的是负空间自相关。 2.2 2.2 2.2 2.2 空间随机性 如果任意位置上观测的属性值不依赖于近邻位置上的属性值, 我们说空间过 程是随机的。 Hanning 则从完全独立性的角度提出更为严格的定义,对于连续空间变量 Y, 若下式成立,则是空间独立的: 式中,n 为研究区域中面积单元的数量。若变量时类型数据,则空间独立性 的定义改写成 式中,a,b 是变量的两个可能的类型,i j。 2.3 2.3 2.3 2.3 Moran's Moran's Moran's Moran's I I I I 统计 Moran's I 统计量是基于邻近面积单元上变量值的比较。 如果研究区域中邻近 面积单元具有相似的值, 统计指示正的空间自相关;若邻近面积单元具有不相似 的值,则表示可能存在强的负空间相关。 - 2 - 设研究区域中存在 n 个面积单元,第 i 个单位上的观测值记为 yi,观测变量 在 n 个单位中的均值记为 y ,则 Moran's I 定义为 = = = = = = n i n j ij n i n j ij n i W W n I 1 1 1 1 j i 1 2 i ) y - )(y y - (y ) y - (y 式中,等号右边第二项 = = n 1 i n 1 j j i ij ) y - )(y y - (y W 类似于方差,是最重要的项, 事 实上这是一个协方差, 邻接矩阵 W 和 ) y - )(y y - (y j i 的乘积相当于规定 ) y - )(y y - (y j i 对邻接的单元进行计算,于是 I 值的大小决定于 i 和 j 单元中的变量值对于均值 的偏离符号,若在相邻的位置上,yi 和 yj 是同号的,则 I 为正;yi 和 yj 是异号的, 则 I 为负。在形式上 Moran's I 与协变异图 { }{ } u ˆ - ) Z(s u ˆ - ) Z(s N(h) 1 (h) C ˆ j i = 相联 系。 Moran's I 指数的变化范围为(-1,1) 。如果空间过程是不相关的,则 I 的期望 接近于 0,当 I 取负值时,一般表示负自相关,I 取正值,则表示正的自相关。 用 I 指数推断空间模式还必须与随机模式中的 I 指数作比较。 通过使用 Moran's I 工具, 会返回 Moran's I Index 值以及 Z Score 值。 如果 Z score 值小于-1.96 获大于 1.96, 那么返回的统计结果就是可采信值。 如果 Z score 为正且大于 1.96 ,则分布为聚集的;如果 Z score 为负且小于-1.96,则分布为 离散的;其他情况可以看作随机分布。 3 3 3 3、实验准备 3.1 3.1 3.1 3.1 实验环境 本实验在 Windows 7 的操作系统环境中进行,使用 ArcGis 9.3 软件。 3.2 3.2 3.2 3.2 实验数据 此次实习提供的数据为以湖北省为目标区域的 bount.dbf 文件。.dbf 数据中 包括第一产业增加值,第二产业增加值万元,小学在校学生数,医院、卫生院床 位数,乡村人口万人,油料产量,城乡居民储蓄存款余额,棉花产量,地方财政 一般预算收入,年末总人口(万人),粮食产量,普通中学在校生数,肉类总产量, 规模以上工业总产值现价(万元)等属性,作为分析的对象。 - 3 - 4 4 4 4、实验步骤 本报告用 Moran's I 检验湖北省各区域规模以上工业总产值现价(万元)的空 间分布的空间自相关性。 (1 1 1 1)Feature Feature Feature Feature to to to to Points Points Points Points 对于线类要素和多边形要素,程序会计算要素的几何中心点,然后对几何中 心点进行分析。这就会造成有些要素的几何中心点不在几何要素内部,如果想达 到此目的,需要先用 Fea

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小狼躲藏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值