数据分析 第二篇:数据特征分析(统计量分析)

本文探讨了数据分析中的统计量分析,包括基本统计量如均值、中位数、众数,以及离散程度的度量如标准差、四分位极差。此外,还介绍了分布形状的偏度和峰度,帮助理解数据的对称性和集中趋势。以R语言为例,展示了如何计算和解释这些统计量。
摘要由CSDN通过智能技术生成

对于成功的数据分析而言,把握数据整体的性质是至关重要的,使用统计量来检查数据特征,主要是检查数据的集中程度、离散程度和分布形状,通过这些统计量可以识别数据集整体上的一些重要性质,对后续的数据分析,有很大的参考作用。

一,基本统计量

用于描述数据的基本统计量主要分为三类,分别是中心趋势统计量、散布程度统计量和分布形状统计量。

1,中心趋势统计量

中心趋势统计量是指表示位置的统计量,直观地说,给定一个属性,它的值大部分落在何处?

(1)均值

均值(mean)又称算数平均数,描述数据去指导额平均位置,数学表达式:均值 =  ∑x  /  n;

有时,一组数据中的每个值可以和一个权重Wi相关联,权重反映的的是依附值的重要性或出现的频率,这种均值称作加权均值 =  ∑xw  /  n;

尽管均值是描述数据集中心趋势的最有用的统计量,但是,它并非总是度量数据中心的最佳方法,这是因为,均值对极端值(离群点)很敏感。为了抵消少数极端值的影响,我们可以使用截尾均值,截尾均值是指丢弃极端值后的均值。

(2)中位数

对于倾斜(非对称)的数据,能够更好地描述数据中心的统计量是中位数(median),中位数是有序数据值的中间值,中位数可避免极端数据,代表这数据总体的中等情况。例如:从小到大排序,总数是奇数,取中间的数,总数是偶数,取中间两个数的平均数。

(3)众数

众数(mode)是变量中出现频率最大的值,通常用于对定性数据确定众数,例如:用户状态(正常,欠费停机,申请停机,拆机、消号),该变量的众数是“正常”,这种情况是正常的。

2,表示数据离散程度的统计量

度量数据离散程度的统计量主要是标准差和四分位极差。

(1)标准差(或方差)

标准差用于度量数据分布的离散程度,低标准差意味着数据观测趋向于靠近均值,高标准差表示数据散步在一个大的值域中。

(2)四分位极差

极差(range),也称作值域,是一组数据中的最大值和最小值的差, range = Max - Min。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值