《从零进阶!数据分析的统计基础》-2.描述性统计分析

目录

第二章 描述性统计分析

2.1直方图

2.2数据的计量尺度

定类尺度

定序尺度

定距尺度

定比尺度

2.3数据的集中趋势

2.3.1定量数据:平均数

2.3.2顺序数据:中位数和分位数

2.3.3分类数据:众数

2.4数据的离中趋势

2.4.1极差

2.4.2分位距

2.4.3平均差

2.4.4方差和标准差

2.4.5离散系数

2.5数据分布的测度

2.5.1数据偏态及其测定

2.5.2数据峰度及其测定

2.5.3数据偏度和峰度的作用

2.6数据的展示--统计图

2.6.1条形图与扇形图

2.6.2折线图

2.6.3茎叶图

2.6.4箱线图

2.6.5统计图小结

2.7使用Excel实现数据的描述性统计分析


第二章 描述性统计分析

2.1直方图

直方图分为两种:

1.频数分布直方图:长方形的面积代表对应组的频数与组距的比

2.频率分布直方图:长方形的高代表频数

"输入区域"输入待分析数据区域的单元格引用

"接受区域"输入接受区域的单元格引用(上图使用了10-100),该框可为空,则系统自动利用输入区域中的最小值和最大值建立平均分布的区间间隔的分组。

"输出选项"中可以选择输出去向

选择"柏拉图"可以在表中同时按降序排列频数数据;选择"累计百分比"可以在输出表中增加一列累计百分比数值,并绘制一条百分比曲线;选择"图表输出"可以生成一个嵌入式直方图

2.2数据的计量尺度

数据的计量尺度是指对计量对象量化时采用的具体标准,它分为四类:定类尺度、定序尺度、定距尺度和定比尺度。

前两种为定性数据,后两种为定量数据

定类尺度

定类尺度计量的数据表现为"类别",各类之间无等级次序,只能用来比较相等或不相等,如性别、民族

定序尺度

定类尺度也用来描述一个对象的类别,但与定类尺度不同的是,定序尺度的类别具有内在固定的大小或高低顺序,可以比较大小,例如职称、健康状况、质量等级等。

定距尺度

定距尺度不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。定距尺度的计量数据表现为数值,可以进行排序也可以比较大小,还可以进行加减运算,例如年份、摄氏度、温度、纬度等

定比尺度

定比尺度也称比率尺度,它实在定距尺度的基础上还存在可以作为比较的共同起点或基数。它除了具有定类、定序、定距三种计量尺度的全部特性外,还可以进行乘除运算,例如质量、长度和能量等

2.3数据的集中趋势

2.3.1定量数据:平均数

平均数是描述定量数据的集中趋势,是最常用的一种测度值。主要适用于数值型数据,而不适用于分类数据和顺序数据

2.3.2顺序数据:中位数和分位数

中位数将全部数据分成两部分,每部分包含50%的数据,与中位数类似的还有四分位数、十分位数、百分位数等,主要适合作为顺序数据的集中趋势测度值

2.3.3分类数据:众数

众数是指一组数据中出现次数最多的变量值。主要适合作为分类数据的集中趋势测度值

2.4数据的离中趋势

离中趋势在统计学中是指一组数据向某一中心值分散的程度。

2.4.1极差

极差也叫全距,是一组数据中的最大值与最小值的差距,它能说明数据组中各数据值的最大变动范围。

2.4.2分位距

分位距是对全距的一种改进,它是从数据中剔除了一部分极端值之后重新计算的类似于全距的指标。常用的有四分位距、八分位距和十分位距,

四分位距=(第三个四分位数-第一个四分位数)/ 2

2.4.3平均差

平均差是数据中各数据与其算术平均数离差绝对值的算术平均数,常用符号M.D表示

M.D=\frac{\sum \left | x-\bar{x} \right |}{n}

平均差是根据数列中所有数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。

2.4.4方差和标准差

方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用符号\sigma ^{2}表示。方差的平方根就是标准差。

\sigma =\sqrt{}\frac{\sum_{i=1}^{n}(x-\bar{x})^{2}}{n}

标准差既克服了平均差计算中用绝对值取消离差正负号带来的弊病,又增加了指标本身的"灵敏度"。

标准差的性质:

1.标准差度量了偏离平均数的大小

2.标准差是一类平均偏差

3.标准差指出了数列中的数离它们的平均数有多远,一般来讲,一个数列中约68%的项在离平均数的1个\sigma范围内,约95%的数据在距平均数的2个\sigma范围内,其余5%则远离之。

2.4.5离散系数

极差、平均差、标准差都是对数据离中趋势进行绝对或平均差异的测定。要比较数据平均水平不同的两组数据的离中程度大小,就用到了离散系数。常用的离散系数指标是标准差系数。

标准差系数=标准差/算术平均数,例题:判断哪个班的成绩更有代表性

V_{\sigma }=\frac{\sigma }{\bar{x}}

2.5数据分布的测度

一组数据的分布形状是通过直方图将该数据分布在数轴上拟合出一条曲线,将曲线的尖峭程度和对称性与正态分布曲线相比较,其测试指标包括偏态和峰度。

2.5.1数据偏态及其测定

数据分布的不对称性称作偏态。分为右偏和左偏,当众数在左边,平均数在右边时,即数据的极端值在右边,数据分布曲线向右延伸,称为右偏态或正偏,相反则称为左偏态或负偏。

偏态的计算方法,偏态系数SK公式:

SK=\frac{n}{(n-1)(n-2)}\sum (\frac{x_{i}-\bar{x}}{\sigma })^{3}

SK=0时,分布是对称的

SK<0时,分布呈负偏态,SK值越小,负偏程度越高

SK>0时,分布呈正偏态,SK值越大,正偏程度越高

对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数

2.5.2数据峰度及其测定

峰值是指数据分布的尖峭程度或峰凸程度。根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。它们都是相对于正态分布曲线的标准峰度而言的。

测定峰度的指标是峰度系数K,公式如下:

K=\frac{n(n+1)}{(n-1)(n-2)(n-3)}\sum (\frac{x_{i}-\bar{x}}{\sigma })^{4}-\frac{3(n-1)^{2}}{(n-2)(n-3)}

K<0时,与正态分布相比该分布一般为扁平、瘦尾、肩胖

K>0时,与正态分布相比该分布一般为尖峰、肥尾、肩瘦

2.5.3数据偏度和峰度的作用

2.6数据的展示--统计图

2.6.1条形图与扇形图

2.6.2折线图

2.6.3茎叶图

绘制茎叶图时,一般将每个数据分为茎(高位)和叶(低位)两部分。举例:

以百位和十位为茎,个位数为叶,茎叶图如下所示:

2.6.4箱线图

箱线图又称为盒须图、盒式图或箱型图,是一种用于显示一组数据分散情况的统计图。

箱线图主要包含六个数据节点,将一组数据从大到小排列,分别计算出它的上边缘、上四分位数、中位数、下四分位数、下边缘,还有一个异常值。其中●代表异常值,*代表极端的异常值。

2.6.5统计图小结

2.7使用Excel实现数据的描述性统计分析

数据分析-描述统计

然后可以看到数据的描述性统计分析:

 

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《从进阶数据分析统计基础》-1.数据分析概述 ⽬录 第⼀章 第⼀章 数据分析概述 数据分析概述 1.什么是数据分析 什么是数据分析 1.⽐较常见的答案:数据分析就是分析数据,从⼀⼤堆数据中提取到你想要的信息 2.⽐较专业的答案:数据分析是由针对性的收集、加⼯、整理数据,并采⽤统计、挖掘技术分析和解释数据的科学和艺术 3.⽐较客观的答案:基于某种⾏业⽬的,有⽬的地进⾏收集、整理、加⼯和分析数据,提炼信息的⼀个过程 2.数据分析的六个步骤 数据分析的六个步骤 1.明确分析⽬的和内容 明确分析⽬的和内容 在进⾏数据分析之前,数据分析师应对需要分析的项⽬进⾏详细的了解,数据分析的对象是谁?数据分析的商业⽬的是什么?最后的结 果要解决什么样的业务问题? 2.数据收集 数据收集 按照确定的数据分析和框架内容,有⽬的地收集、整合相关数据。常⽤⽅法有观察法、访谈法、问卷法、测验法等 3.数据处理 数据处理 第⼀步:数据审查 检查数据的数量是否满⾜要求,字段值的内容是否与研究⽬的的要求⼀致等 第⼆步:数据清洗 针对数据审查中发现的错误值、缺失值、异常值、可疑数据,选⽤适当的⽅法进⾏清洗 第三步:数据转换 不同字段值由于计量单位等不同,往往造成数据不可⽐,需要在分析前对数据进⾏变换,包括⽆量纲化处理、线性变换、汇总和聚集、 适度概化、规范化、以及属性构造等 第四步:数据验证 初步评估和判断数据是否满⾜统计分析的需要,从⽽决定是否需要增加或减少数据量。利⽤简单的线性模型及散点图、直⽅图等进⾏探 索,利⽤相关性分析、⼀致性检验等⽅法对数据的准确性进⾏验证 4.数据分析 数据分析 数据分析是指通过分析⼿段、⽅法⾦额技巧对准备好的数据进⾏探索、分析。从中发现因果关系、内部联系和业务规律,为商业⽬的提 供决策参考。 5.数据展现 数据展现 ⼀般情况下,数据分析的结果都是通过图、表的⽅式来呈现的,常⽤的图表包括饼形图、折线图、柱形图/条形图、散点图、雷达图、 ⾦字塔图、矩阵图、漏⽃图、帕累托图等。 6.报告撰写 报告撰写 最后阶段,撰写数据分析报告,对整个数据分析结果的⼀个呈现。⼀份好的数据分析报告,⾸先需要有⼀个好的分析框架,并且图⽂并 茂,层次明晰,能够让读者⼀⽬了然。 3.数据分析⽅法简介 数据分析⽅法简介 数据分析⽅法分为两张,⼀个是统计分析⽅法,另⼀个是数据挖掘⽅法 统计分析⽅法 统计分析⽅法 1.描述性统计分析 描述性统计分析是通过图表或者数学⽅法,对数据资料进⾏整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进⾏估 计和描述的⽅法。分为集中趋势分析、离中趋势分析和相关分析三⼤部分。 集中趋势分析主要靠平均数、中数、众数等统计指标来表⽰数据的集中趋势。 离中趋势分析主要靠全距、四分差、平均差、⽅差、标准差等统计指标来研究数据的离中趋势。 相关分析是研究现象之间是否存在某种依存关系,并对具体由依存关系的现象进⾏其相关⽅向及相关程度的研究。这种关系既包括两个 数据之间的单⼀相关关系(年龄与个⼈领域),也包括多个数据之间的多重相关关系(年龄、抑郁症发⽣率和个⼈领域空间),既包括直线 相关,也可以是复杂相关,还包括两变量共同变化的紧密程度--相关系数。 2.回归分析 回归分析是确定两个及以上变量之间相互依赖的定量关系的⼀种统计分析⽅法,设计⾃变量的多少,可以分为⼀元回归分析和多元回归 分析,按照⾃变量和因变量之间的关系类型,可以分为线性回归和⾮线性回归。此处所讲的回归分析是指⼀元线性回归,区别于数据挖掘⽅ 法⾥的多元线性回归和逻辑斯蒂回归。 3.关联分析 ⼜称"对应分析"、"R-Q型因⼦分析",通过分析由定性变量构成的交互汇总表来揭⽰变量之间的联系。可以揭⽰同⼀个变量的各个类别 之间的差异,以及不同变量各个类别之间的对应关系。对应分析的⼀个基本思想是将⼀个联列表的⾏和列中各元素的⽐例结构以点的形式在 较低维的空间中表⽰出来。 4.因⼦分析 因⼦分析是指研究从变量群中提取共性因⼦的统计技术。就是从⼤的数据中寻找内在的联系,减轻决策困难的分析⽅法。如重⼼法、影 像分析法、最⼤似然解法、最⼩平⽅法、阿尔法抽因法、拉奥典型抽因法、PCA等,⼤部分以相关系数矩阵为基础。 5.⽅差分析 ⼜称"变异系数分析"、"F检验",是R.A.Fisher发明的分析⽅法,⽤于两个及两个以上样本均数差别的显著性检验。由于各种因素的影 响,研究得到的数据呈现波动状,造成波动的原因可分为两类,⼀个是不可控的随机因素,另⼀个是研究中施加的对结果形成影响的可控因 素。⽅差分析从观测变量的⽅差⼊⼿,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。 数据挖掘⽅法 数据挖掘⽅法 1.聚类分析 聚类分析是指将物理或抽象对象的集合分组称为由类似的对象组成的多个类的分析过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值