R极简教程-9:描述性统计分析

本文介绍了R语言进行描述性统计分析的基础知识,包括集中趋势的统计量(均值、中位数、众数、百分位数),离散程度的度量(标准差、方差、极差、变异系数)和分布情况(偏度、峰度)。通过实际例子展示了如何使用R进行分组统计和绘制数据分布图,强调了描述性统计分析在数据分析中的重要性。
摘要由CSDN通过智能技术生成

描述性统计是最基础但同时也是最重要的数据分析之一,这一步做不好,之后的高端复杂模型根本不用考虑的——连数据统计分布都分析不对,之后的复杂模型肯定是错的。主要再这里介绍下面一些东西:

  • 描述性统计分析
  • 离散程度的度量
  • 分组进行描述性统计分析
  • 查看分布

描述性统计分析

在做数据分析时,一般先会对数据进行描述性统计分析,以便于描述该数据的各种特征及其所代表的总体的特征。描述性统计分析包括对数据的集中趋势、离散程度以及分布进行分析。

  • 集中趋势统计量: 均值(Mean)、中位数(Median)、众数(Mode)、百分位数
  • 离散趋势统计量:标准差(sd)、方差(var)、极差(range)、变异系数(CV)、标准误、样本校正平方和(CSS)、样本未校正平方和(USS)
  • 分布情况统计量:偏度、峰度

其中代码都非常简单,mean函数计算均值,median函数计算中位数,table计算不同数据出现的频率。

> A <- sample(1:10,20,replace = T)
> mean(A)
[1] 5.8
> median(A)
[1] 6.5
> table(A)
A
 1  2  3  4  6  7  8  9 10 
 1  3  4  1  1  2  2  3  3 
> 

我们可以看出,在我随机出来的一批数据中(sample函数用于抽样,从1到10中抽取20次,replace=T的意思是有放回抽取,也就是一个数字可能会出现不止一次),均值是5.8,中位数是6.5,所有数据中,3这个数据出现了4次。

分布情况统计是很重要的两个指标,具体来说就是,偏度(skew)可以告诉你,这批数据有没有做左偏还是右偏了,峰度(kurtosis)可已告诉你这批数据是尖尖山峰的还是矮矮的山包。

偏度示意图:
这里写图片描述

峰度示意图:
这里写图片描述

其实偏度和峰度的计算公式都很简单,不过我们可以使用moments包来计算偏度和峰度:

> library(moments)
> skewness(A)
[1] -0.03798323
> kurtosis(A)
[1] 1.39469
> 

离散程度的度量:

离散系数又称变异系数,是统计学当中的常用统计指标,主要用于比较不同水平的变量数列的离散程度及平均数的代表性。离散系数指标有:全距(极差)系数、平均差系数、方差系数和标准差系数等。常用的是标准差系数,用CV(Coefficient of Variance)表示。CV(Coefficient of Variance):标准差与均值的比率。
用公式表示为:

CV=σ/
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值