CDA Level 1 数据分析师:4.2 数据的描述性统计

1. 描述统计

五个角度描述数据:
1. 总量指标:一年的营业额、利润
2. 相对指标:是两个有相互关系指标的比值(老龄化占比,营业额的完成情况,合格率)
3. 集中趋势:
	1. 定义:一组数据向中心靠拢的趋势
	2. 众数:出现的次数最多的变量值M0; 众数不唯一
	3. 分位数: 
				1. 中位数:先排序,找中间位置的数
				2.  四分位数:上分位数1/4; 下分位数3/4
				3. 均值:
					1. 算数平均数:简单算数平均数,加权算数平均数
						加权算数平均数:用于分组的平均值,组中值*权重  再求和。权重:是一个概率:频数/总数
					2. 几何平均数(用于增长率):
						例:一只股票两年收益率分别为4.5%, 1.9% 计算投资者四年的平均收益率?
						几何平均:G = sqrt(104.5% + 101.9%) - 1
					3. 调和平均数(用于加速度计算):
						1. 变量倒数的算数平均数的倒数
					4. 均值不等式
						对于同一组数据:算数平均数 ≥ 几何平均数 ≥ 调和平均数
						当所有样本值相等时,等号成立
	4.  离散程度:
		1. 极差: 一组数据最大值-最小值
		2. 平均差:各变量值与其均值离差的绝对值的平均数
			1. 每个样本值到均值的平均距离
			2. ΣABS(Xi-Xbar)
		3. 总体方差和标准差 σ
		4. 样本方差和标准差 S(注意计算样本方差时,分母是n-1)
		5. 离散系数(变异系数)
			因为可能两个组的数,量纲是不同的,如金钱的角和元之间的离散程度。
			计算变异指标:标准差与均值的比值

2. 相对位置的度量-标准化值

1. 标准化值:
	标准化值计算:每个样本到均值差值 是标准差的倍数(类似于去量纲)(Xi-Xbar)/S  
	从图像上可以理解为:先平移到零点,再将图像进行伸缩
2. 非标准分布:
切比雪夫不等式:1-1/K² 不管数据什么分布,至少有89%数据落在平均数加减3倍标准差的范围内。即K=3时,1-1/9 = 89%
说明三倍标准差以外的数据就认为是异常值

3. 分布形态的描述-偏态与峰值

1. 偏态
	数据分布的偏离程度
	判断:尾巴在哪就是哪个偏离(注意:图是数据出现的频数)
	偏态系数< 0,左偏
	偏态系数> 0,右偏
2. 峰态
	峰态系数K  = 0:适中
	扁平分布 K < 0 
	尖峰分布 K > 0

4. 描述性统计图表

1. 直方图:横轴是范围,纵轴是频数
2. 散点图:描述X,Y之间的关系(年龄与收入的关系)
3. 箱型图:分析数据的离散型(包含:最大值、最小值、上下分位数、中位数)
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只小Demo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值