描述性统计是最基础但同时也是最重要的数据分析之一,这一步做不好,之后的高端复杂模型根本不用考虑的——连数据统计分布都分析不对,之后的复杂模型肯定是错的。主要再这里介绍下面一些东西:
- 描述性统计分析
- 离散程度的度量
- 分组进行描述性统计分析
- 查看分布
描述性统计分析
在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。
- 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数
- 离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)
- 分布情况统计量:偏度、峰度
其中代码都非常简单,mean
函数计算均值,median
函数计算中位数,table
计算不同数据出现的频率。
> A <- sample(1:10,20,replace = T)
> mean(A)
[1] 5.8
> median(A)
[1] 6.5
> table(A)
A
1 2 3 4 6 7 8 9 10
1 3 4 1 1 2 2 3 3
>
我们可以看出,在我随机出来的一批数据中(sample
函数用于抽样,从1到10中抽取20次,replace=T的意思是有放回抽取,也就是一个数字可能会出现不止一次),均值是5.8,中位数是6.5,所有数据中,3这个数据出现了4次。
分布情况统计是很重要的两个指标,具体来说就是,偏度(skew)
可以告诉你,这批数据有没有做左偏还是右偏了,峰度(kurtosis)
可已告诉你这批数据是尖尖山峰的还是矮矮的山包。
偏度示意图:
峰度示意图:
其实偏度和峰度的计算公式都很简单,不过我们可以使用moments
包来计算偏度和峰度:
> library(moments)
> skewness(A)
[1] -0.03798323
> kurtosis(A)
[1] 1.39469
>
离散程度的度量:
离散系数又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程度及平均数的代表性。离散系数指标有:全距(极差)系数、平均差系数、方差系数和标准差系数等。常用的是标准差系数,用CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比率。
用公式表示为: