Linux数理描写

数理统计:
1.描述统计
2.推断统计

1.描述统计
1.什么是描述统计?
描述统计 从数据中提取 变量的主要信息

2.从数据中提取 变量的主要信息 =》 【指标】 统计量
统计量:
	1.频率与频数 
	2.集中趋势分析:
		均值、中位数、众数、分位数
	3.离散程度分析:
		极差、方差、标准差
	4.分布形状:
		偏度、峰度
3.提取 变量:
	1.数值变量 【就是一个table 中的 column  是数值类型】
	2.类别变量 【就是一个table 中的 column  是非数值类型 string 】 

1.频率与频数
1.适用场景 =》类别变量
2.频数:就是 每个不同的取值出现的次数
3.频率:每个不同的取值出现的次数 与总次数的比值 用%表示

意义:
	类别变量中,每个取值出现的次数

eg:
	A班级 及格 30人 , B班级及格 35人 能说明()
		1.A班级 成绩更好
		2.B班级 成绩更好
		3.成绩差不多
		4.无法确定哪个班级成绩好
	
	分析:
		1.类别变量  =>  及格
		2. 频数 =》及格人数 

1.集中趋势分析:
均值、中位数、众数、分位数

均值: 一组数据的总和 除以 数据的个数

均值 = 和 / 个数 

中位数:一组数据的 按照 升序进行排列 最中间的位置 就是 中位数

众数: 一组数据 出现的次数最多的值

注意:
1.数值变量:
均值、中位数 表示一组数据 的 集中程度
2.类别变量:
众数 集中程度

3.分布:  
	正太分布:
	偏态分布:	
		左偏分布: 均值在 最左边 
		右偏分布:均值在 最右边 
4.影响:
	1.均值 =》 受 极端值 影响 、
	2.中位数 众数  不受极端值影响 【稳定】
	3.众数 一组数据 中 可能不是唯一的 【单拿出来 是不行的】


	问: 
		国家城市统计居民收入水平 , 使用那个指标衡量 更合适 ?
			1.均值
			2.中位数
			3.中位数或者众数 
			4.都可以 
	
	意义: 
		衡量数据综合水平 

		思考: 
			缺失值 填充 如何处理?
				1.数据  =》 0  
				2. 数据 去掉 
				3. 补充 =》 中位数

分位数:
通过 (n-1 ) 分位 划分 n个区间
每个区间数据的个数是相等的 (近似相等)

意义: 
	利用分位数 +  极值  可以判断 数据的分布状态

集中趋势分析:
弊端 :
5 5 5 5 =》 5
0 -5 20 5 =》 5
-100 100 120 -100 =》5

离散程度分析:
极差 、方差 、标准差
极差:一组数据中 ,最大值 - 最小值
方差: 一组数据中 每个元素 与 均值的偏离 大小
标准差:就是方差的开方

意义:
方差/标准差:
1.数据的分散性
越大 数据越分散
越小 数据越集中
2.数据的波动性
越大 波动越大
越小 波动越小

分布形状:
偏度、峰度

1.偏度:
倾斜程度的度量
eg:
数据 -》 正态分布 偏度就是 0
数据 -》 左偏分布 偏度就是 小于0
数据 -》 右偏分布 偏度就是 大于0

2.峰度:
描述 数据分布 陡缓的程度
1.标准 正态分布 峰度 0
2.如果 峰度 > 0 :
数据在分布上 数据比 标准 正态分布 密集 =》 方差比较 小
2.如果 峰度 < 0 :
数据在分布上 数据比 标准 正态分布 分散 =》 方差比较 大

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值