策略分析
参数估计与假设检验是重点难点。
考点总结
描述性统计分析介绍
描述性统计分析是研究数据收集、处理和描述的统计学方法。
统计学是一门收集、处理、分析、解释数据并从数据中得到结论的科学。
数据分类:分类型、顺序型、数值型
统计学的基本概念:
总体与样本、参数(总体的某种特征值如均值)与统计量(样本的特征值)
描述统计5大指标:
1.总体规模的描述–总量指标
2.对比关系的描述–相对指标
3.集中趋势的描述–平均指标(众数、中位数、分位数、均值)
大蒜有几条–算术>=几何>=调和平均数
4.离散程度的描述–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)
标准化值是对某个数据在全体中相对位置的度量。
经验法则:对于对称分布来说,**68%、95%、99%**的数据在平均数加减1个、2个、3个标准差范围内。
切比雪夫不等式:
**75%、89%、94%**的数据在平均数加减2、3、4个标准差范围内。
5.分布形态的描述–偏度与峰度
偏态:数据分布的偏斜程度
偏态形状
偏态程度
偏态对众数、中位数、平均数的影响
左偏:平均数<中位数<众数
峰态:数据分布的扁平程度
峰态形状
峰态程度
描述性统计图表–直方图、散点图、箱型图
箱型图:
横过来展示下IQR,这里在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
统计分布
1.两点分布(伯努利分布)与二项分布
2.正态分布
3.卡方分布
4.t分布
5.F分布
相关分析
相关关系的描述–散点图
线性和非线性、正相关和负相关、完全相关和不完全相关
相关关系的度量–协方差
相关关系的度量–相关系数
推断性统计分析–研究如何利用样本数据推断总体特征的统计学方法
参数估计
中心极限定理
总体均值估计
总体比例估计
总体方差估计
评价估计量3标准:无偏性、有效性、一致性
估计结果
点估计
点估计–样本估计量构造的某个值直接当做总体参数的估计值.
具体方法–矩估计法、最大似然法、最小二乘法
区间估计
点估计的样本统计量加减抽样误差得到。
置信水平–在重复抽取的m个样本中,这m个样本构造的m个置信区间包含总体参数值的个数占m的比例。90%的置信水平是说在100个置信区间中,有90个区间包含真实的总体参数。
假设检验
假设–对总体参数的数值所做的一种陈述,总体参数包含总体均值、比例、方差等。
假设检验–采用逻辑上的反证法,依据统计上的小概率事件
原假设和备择假设
决策风险–第一类α弃真错误,第二类β取伪错误
假设检验的流程
利用P值进行决策
对于两个正态总体参数,如果sigma已知,就用z检验,如果sigma未知,就用t检验。
习题整理(易错题、难题)
1.关于置信区间说法正确的是()
A.置信区间是区间估计
B.用于评价点估计的可靠性
C.置信区间一定包含总体参数
D.置信区间用于评价变量的方差大小
答:AB。1-α的置信区间一定包含总体参数,其他的是不包含总体参数的。
D不太理解这句话什么意思。
2.分类型变量的缺失值可以怎样填充?()
A.均值
B.额外增加元类标签表示缺失
C.中位数
D.众数
答:BD
3.有关假设检验说法正确的是()
A.原假设H0,通常是不希望出现的结果。
B.小概率事件的界值,可以是0.01,也可以是0.05,甚至是0.1。
C. 样本的获取,一定要保证简单随机抽样。
D.选择检验的方法,可以是多种统计模型。
答:ABD
4.为什么要计算均值估计的置信区间说法正确的是()
A.用于判断总体有多大的百分比的个体,其数值等于均值的点估计
B.用以决定随机抽样的类型
C.用以评价随机抽样的有效性
D.用以评价点估计的可靠性
答:D
错选为C,因为考虑到置信区间中包含了样本标准差或总体标准差,而标准差可以评价随机抽样的有效性。但这里重点是置信区间、而不是标准差。那么在这里选择D会更合适,用置信区间评价点估计的可靠性。
5.盒须图中,Q1到其最近的內限距离为()
A.IQR
B.1.5IQR
C.0.5
0.75
答:B.上面知识点有。
6.在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有5个不同选项,但有70%左右客户这项数据没写,那么哪一项的处理方式更合理()
A.建模前先将这个变量删除
B.将这一项没有填写的客户归为第6类
C.用前5项的众数替换缺失值
D.提出这部分未填写爱好的客户信息
答:B.
错选为A,觉得70%的数据缺失不如直接舍掉这个变量。但其实哪怕只有30%也好过0%,总是有信息可以利用上。
7.在估计总体比例时,若其他条件不变,如果为了节约成本,减少50%的样本,那么误差将大约是原来的()
A.1.4倍
B.1.5倍
C.2倍
D.4倍
答:A
error=Z*(S/√n)根据这个公式计算。
8.某手机电池生产商对电池的生产工艺进行了改进,并对外宣称改进后的电池能够显著的提高手机待机时间,为了检验该改进工艺是否有效,我们将进行t检验。通常在t检验之前我们首选需要进行()
A.工艺改进前后的数据相关性分析
B.使用线性回归,检验工艺改进对待机时间的影响
C.进行F检验,判断两个总体的方差是否存在显著差异
D.使用卡方的独立性检验查看工艺改进与待机时间是否相关
答: C。重要知识点:
在运用t检验进行假设检验时为什么需要进行方差齐性分析?
t检验主要用于样本含量较小(n<30),总体标准差σ未知的正态分布,从而比较两个平均数的差异是否显著。
我们先从一个例子说起:
在改进工艺前后,各测量了若干钢条的抗拉强度,数据如下:
改进前:521、525、533、525、517、514、526、519
改进后:525、531、518、533、546、524、521、533、545、540
请问,可以认为改进工艺之后钢条抗拉强度有提高吗?
大致一看,这属于两个均值的检验,改进前、后总体方差未知,而且是小样本量,自然选用t检验
这自然是不错的,但是需要注意的是t检验的前提条件是方差未知且相等,因此需要先验证改进前、后的两个样本方差是否相等,也就是方差齐性检验(F检验)
如果计算两样本方差没有显著性差异,才可以再进行t检验。
因此,正确的步骤应该是:
1.检验两样本方差是否相等
1.1 建立假设,H0:方差相等,H1:方差不相等
1.2 运用F检验
1.3 根据显著性水平确定拒绝域的临界值
1.4 计算样本的观察值
1.5 确定样本观测值落入拒绝域还是非拒绝域
1.6 判定假设H0与H1哪个成立
1.7 如果H0成立,则继续运用t检验确定均值是否提高;如果H1成立,则终止计算,先对是数据进行转换或者两个样本大量取值(>30)使用Z检验。
9.下列哪一项方法对于发现异常值有帮助()
A.减去均值,并除以标准差
B.梯度下降法
C.相关性分析
D.归一化处理
答:A。标准化之后,利用正负3倍标准差识别异常值。