目录
在进行数据分析时,当研究者得到的数据量很小时,可以通过直接观察原始数据来获得所有的信息。但是当得到的数据量很大时,就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开进行描述的统计分析方法被称为描述性统计分析。本章将会为大家介绍的描述性统计分析方法包括定距变量的描述性统计、正态性检验和数据转换、单个分类变量的汇总、两个分两类变量的列联列表分析、多表和多维列连列表分析。
3.1定距变量的描述性统计
数据分析中大部分变量都是定距变量,通过进行定距变量的基本描述性统计,我们可以得到数据得概要统计指标,包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过或者这些指标,可以从整体上对拟分析的数据进行宏观的把握,从而为后续进行更深入的数据分析做好必要的准备。
数据(案例3.1)时我国电力消费情况。试通过对数据进行基本描述性分析来了解我国各地区电力消费的基本情况。变量为地区和电力消费量
summarize cunsumption
我们可以看到一共有31个样本参与了分析,电力消费量的平均值时1180.489,样本的标准差时903.5561,样本最小值时17.6987,样本最大值时3609.642。
案例延伸
1.获得更详细的描述性统计结果
sum cunsumption,detail
从上图我们可以得到更加详细的信息。
(1)百分位数(Percentiles)
可以看出数据的第一个四分位数(25%)时550.1556,数据的第二个四分位数(50%)是891.1902,数据的第三个四分位数(75%)是1324.61,数据的百分位数的含义是低于该数据值得样本在全体样本中得百分比。例如,本例中25%分位数得含义是全体样本中有25%得数据值低于550.1556。
(2)四个最小值(Smallest)
本例中,最小的四个数据分别是17.6987、133.7675、337.2368、462.9585。
(3)四个最大值(Largest)
本例中,最大的四个数据分别是3609.642、3313.986、2941.067、2471.438。
(4)平均值(Mean)和标准差(Std.Dev)
(5)偏度(Skewness)和峰度(Kurtosis)
偏度的概念是表示不对称的方向和程度。如果偏度值大于0,那么数据就具有正片都(右边有尾巴);如果偏度值小于0,那么数据就具有负偏度(左边有尾巴);如果偏度值等于0那么数据将呈对称分布。本例中,数据偏度为1.309032,为正偏度但不大。</