CDA Level1知识点总结之描述性统计分析

策略分析

参数估计与假设检验是重点难点。

考点总结

描述性统计分析介绍

描述性统计分析是研究数据收集、处理和描述的统计学方法。

统计学是一门收集、处理、分析、解释数据并从数据中得到结论的科学。

数据分类:分类型、顺序型、数值型

统计学的基本概念:
总体与样本、参数(总体的某种特征值如均值)与统计量(样本的特征值)

描述统计5大指标
1.总体规模的描述–总量指标

2.对比关系的描述–相对指标

3.集中趋势的描述–平均指标(众数、中位数、分位数、均值)
大蒜有几条–算术>=几何>=调和平均数

4.离散程度的描述–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)
在这里插入图片描述 标准化值是对某个数据在全体中相对位置的度量。在这里插入图片描述
经验法则:对于对称分布来说,**68%、95%、99%**的数据在平均数加减1个、2个、3个标准差范围内。
切比雪夫不等式
在这里插入图片描述
**75%、89%、94%**的数据在平均数加减2、3、4个标准差范围内。

5.分布形态的描述–偏度与峰度
偏态:数据分布的偏斜程度
偏态形状
在这里插入图片描述
偏态程度
在这里插入图片描述
偏态对众数、中位数、平均数的影响
左偏:平均数<中位数<众数
在这里插入图片描述
峰态:数据分布的扁平程度
峰态形状
在这里插入图片描述
峰态程度
在这里插入图片描述

描述性统计图表–直方图、散点图、箱型图

箱型图:
在这里插入图片描述
横过来展示下IQR,这里在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1
在这里插入图片描述

统计分布

1.两点分布(伯努利分布)与二项分布
2.正态分布
3.卡方分布
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4.t分布
在这里插入图片描述
在这里插入图片描述
5.F分布
在这里插入图片描述
在这里插入图片描述

相关分析

相关关系的描述–散点图
线性和非线性、正相关和负相关、完全相关和不完全相关

相关关系的度量–协方差
在这里插入图片描述
相关关系的度量–相关系数
在这里插入图片描述

推断性统计分析–研究如何利用样本数据推断总体特征的统计学方法

参数估计

中心极限定理
在这里插入图片描述
总体均值估计
在这里插入图片描述
总体比例估计
在这里插入图片描述
在这里插入图片描述
总体方差估计
在这里插入图片描述
在这里插入图片描述

评价估计量3标准:无偏性、有效性、一致性
在这里插入图片描述
估计结果

点估计

点估计–样本估计量构造的某个值直接当做总体参数的估计值.
具体方法–矩估计法、最大似然法、最小二乘法

区间估计

点估计的样本统计量加减抽样误差得到。
置信水平–在重复抽取的m个样本中,这m个样本构造的m个置信区间包含总体参数值的个数占m的比例。90%的置信水平是说在100个置信区间中,有90个区间包含真实的总体参数。

假设检验

假设–对总体参数的数值所做的一种陈述,总体参数包含总体均值、比例、方差等。
假设检验–采用逻辑上的反证法,依据统计上的小概率事件
原假设和备择假设
在这里插入图片描述
在这里插入图片描述
决策风险–第一类α弃真错误,第二类β取伪错误
在这里插入图片描述
假设检验的流程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
利用P值进行决策
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
对于两个正态总体参数,如果sigma已知,就用z检验,如果sigma未知,就用t检验。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

习题整理(易错题、难题)

1.关于置信区间说法正确的是()
A.置信区间是区间估计
B.用于评价点估计的可靠性
C.置信区间一定包含总体参数
D.置信区间用于评价变量的方差大小
答:AB。1-α的置信区间一定包含总体参数,其他的是不包含总体参数的。
D不太理解这句话什么意思。

2.分类型变量的缺失值可以怎样填充?()
A.均值
B.额外增加元类标签表示缺失
C.中位数
D.众数
答:BD

3.有关假设检验说法正确的是()
A.原假设H0,通常是不希望出现的结果。
B.小概率事件的界值,可以是0.01,也可以是0.05,甚至是0.1。
C. 样本的获取,一定要保证简单随机抽样。
D.选择检验的方法,可以是多种统计模型。
答:ABD

4.为什么要计算均值估计的置信区间说法正确的是()
A.用于判断总体有多大的百分比的个体,其数值等于均值的点估计
B.用以决定随机抽样的类型
C.用以评价随机抽样的有效性
D.用以评价点估计的可靠性
答:D
错选为C,因为考虑到置信区间中包含了样本标准差或总体标准差,而标准差可以评价随机抽样的有效性。但这里重点是置信区间、而不是标准差。那么在这里选择D会更合适,用置信区间评价点估计的可靠性。

5.盒须图中,Q1到其最近的內限距离为()
A.IQR
B.1.5IQR
C.0.5
0.75
答:B.上面知识点有。

6.在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有5个不同选项,但有70%左右客户这项数据没写,那么哪一项的处理方式更合理()
A.建模前先将这个变量删除
B.将这一项没有填写的客户归为第6类
C.用前5项的众数替换缺失值
D.提出这部分未填写爱好的客户信息
答:B.
错选为A,觉得70%的数据缺失不如直接舍掉这个变量。但其实哪怕只有30%也好过0%,总是有信息可以利用上。

7.在估计总体比例时,若其他条件不变,如果为了节约成本,减少50%的样本,那么误差将大约是原来的()
A.1.4倍
B.1.5倍
C.2倍
D.4倍
答:A
error=Z*(S/√n)根据这个公式计算。

8.某手机电池生产商对电池的生产工艺进行了改进,并对外宣称改进后的电池能够显著的提高手机待机时间,为了检验该改进工艺是否有效,我们将进行t检验。通常在t检验之前我们首选需要进行()
A.工艺改进前后的数据相关性分析
B.使用线性回归,检验工艺改进对待机时间的影响
C.进行F检验,判断两个总体的方差是否存在显著差异
D.使用卡方的独立性检验查看工艺改进与待机时间是否相关
答: C。重要知识点:
在运用t检验进行假设检验时为什么需要进行方差齐性分析?
t检验主要用于样本含量较小(n<30),总体标准差σ未知的正态分布,从而比较两个平均数的差异是否显著。
我们先从一个例子说起:
在改进工艺前后,各测量了若干钢条的抗拉强度,数据如下:
改进前:521、525、533、525、517、514、526、519
改进后:525、531、518、533、546、524、521、533、545、540
请问,可以认为改进工艺之后钢条抗拉强度有提高吗?
大致一看,这属于两个均值的检验,改进前、后总体方差未知,而且是小样本量,自然选用t检验
在这里插入图片描述
这自然是不错的,但是需要注意的是t检验的前提条件是方差未知且相等,因此需要先验证改进前、后的两个样本方差是否相等,也就是方差齐性检验(F检验)
在这里插入图片描述
如果计算两样本方差没有显著性差异,才可以再进行t检验。
因此,正确的步骤应该是:
1.检验两样本方差是否相等
1.1 建立假设,H0:方差相等,H1:方差不相等
1.2 运用F检验
1.3 根据显著性水平确定拒绝域的临界值
1.4 计算样本的观察值
1.5 确定样本观测值落入拒绝域还是非拒绝域
1.6 判定假设H0与H1哪个成立
1.7 如果H0成立,则继续运用t检验确定均值是否提高;如果H1成立,则终止计算,先对是数据进行转换或者两个样本大量取值(>30)使用Z检验。

9.下列哪一项方法对于发现异常值有帮助()
A.减去均值,并除以标准差
B.梯度下降法
C.相关性分析
D.归一化处理
答:A。标准化之后,利用正负3倍标准差识别异常值。

  • 7
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

狐狸的帽子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值