统计分析【一】—— 描述性统计实现

本文介绍了描述性统计的基本概念,包括集中度(均值、众数、中位数)和离散度(极差、方差、标准差、变异系数)的描述与计算。同时,探讨了在不同数据量级下,如何利用Excel、SQL、R语言和Python进行数据处理和统计分析,强调选择工具应以满足需求的便捷性为原则。
摘要由CSDN通过智能技术生成

一、数据统计量描述

1、集中度描述

1.1 均值

1)描述
一组数据的算术平均,反应一组数据的集中分布趋势,缺点是容易受极端值影响。
2)公式
在这里插入图片描述

1.2 众数

一组数据中出现次数最多的数字,可能不止一个,可能没有。适用于当数据具有明显集中趋势的情况。

1.3 中位数

一组数据从小到大排列,位于中间的数据,其中偶数个数的数据为中间两个数据的算术平均,缺点是数据不敏感。

2、离散度描述

2.1 极差

最大值-最小值,反应一组数据的范围大小,极差越大越分散。

2.2 方差

1)描述
反应数据的离散程度,用来度量随机变量与期望的偏差程度。
2)总体方差
在这里插入图片描述

2.3 标准差

1)描述
反应数据的分散程度,为方差的算术平方根。
2)公式
在这里插入图片描述

2.4 变异系数

1)变异系数 = 标准偏差/平均数。
2)当需要比较两组数据的离散程度,但是两组数据量级大小不一致时,可以通过变异系数消除测量尺度带来的影响,但是不适用于平均值较小(接近0)的情况,会带来比较大的误差。
3)变异系数越大,数据越离散。
4)一般来讲,变异系数超过15%则考虑数据异常。
在这里插入图片描述

2.5 贝塞尔校正

在类似正态分布中,样本围绕在均值附近,抽取到边缘值的概率较小,样本值会偏向集中,因此计算出来的样本方差会较小,如果以此来估计整体方差时,需要进行适当放大,即除数修正为N-1。

二、数据处理工具

根据总体样本的大小进行处理的工具有多种,一般数据量级较少时采用EXCEL即可满足需求,数量级较大时(百万级别以上)一般采用SQL、R、python进行处理,须知方法只是作为满足需求的处理工具,一切以满足需要的便捷性出发,无需拘泥于工具本身。

1、EXCEL 函数

1.1、说明
采用 office Excel函数计算及数据分析功能。
1.2、实现


//平均值
=AVERAGE(数据区域)

//众数 数值型
=MODE(数据范围)

//众数文本型
=INDEX(数据范围,MAX(MATCH(数据范围,数据范围,数据范围,)))

//中位数
=MEDIAN(数据范围)

//极差 
=MAX(数据范围)-MIN(数据范围)

//方差
=VAR(数据范围)

//标准差
=STDEV(数据范围)

//变异系数
=STDEV(数据范围)/AVERAGE(数据区域)

2、EXCEL描述统计

1)功能开启

功能开启:文件 -》选项 -》加载项 -》转到 -》分析工具库

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值