文章目录
1. 基本概念
数据间类型的转换
- 连续变量、有序变量、无序变量间的信息量越来越少,在丢弃一部分信息量的前提下,可以将变量向信息量减少的方向加以转换
- 连续数据与有序分类数据
- 年龄、客户贡献度→人为划分成若干级别
- 有序分类数据与两分类数据
- 售后满意度→按照某个级别一分为二
统计量、总体参数与抽样误差
- 刻画样本特征的统计指标称为统计量(statistic),如平均水平,离散水平
- 刻画总体特征的指标称为总体参数(parameter),例如总体中某个指标的所有个体变量值的平均数称为总体均数
- 统计研究中真正希望加以研究考察的都是总体参数,但参数—般是无法直接求得的,只能从统计量的大小加以推估
概率、频率与小概率事件
- 随机事件:随机现象某个可能的观察结果称为一个随机事件
- 频率(frequency):观察到的随机事件某个结局的出现频次/比例,可以被直接观察到
- 概率(probability):概率刻画随机事件发生可能性大小,其取值界于0和1之间
- 不能被直接观察到,但可以通过频率估计,实验次数越多,估计越精确
- 在统计学中,如果随机事件发生的概率小于或等于0.05,则认为是一个小概率事件,表示该事件在大多数情况下不会发生,并且一般认为小概率事件在一次随机抽样中不会发生,如果事情发生了,说明我们的假设有问题,这就是小概率原理。小概率原理是统计推断的基础
- 经典的小概率事件:瞎猫碰上死耗子
2. 统计研究的步骤
设计 收集 整理 分析
设计:
选题→明确研究目的→提出假设→明确总体范围→确立观察指标→控制研究中的偏倚→给出具体的研究方案
收集: 趋向两极化
整理: 越来越倾向于半自动化,有许多软件工具可用,但这并不意味着该过程并不重要
分析:
-
统计描述:了解样本数据的情况,是全部工作的基础,是尽量精确、直观而全面的对所获得的样本进行呈现
- 为了达到这一目的,需要使用一系列专门的统计描述指标
- 这些指标的呈现方式又可分为两种
- 统计图:直观,但精确度稍差
- 统计报表:能尽量详细,精确,但不够直观
-
统计推断:从样本信息外推到总体,以最终获得对所感兴趣问题的解答
- 参数估计:样本→所在总体特征
- 例:该配件的日平均用量是多少?
- 假设检验:该指标可能的影响因素分析
- 例:和晴天相比,雨天的配件用量是否更低
- 参数估计:样本→所在总体特征
3. 描述统计
3.1 原始数据的基本分布特征
频数表Frequency Table
- 是一种非常直观的方法,但是比较粗糙
- 确定组数:组数不宜过多,但也不能太少,保证大多数组都有数个观察值
- 确定组距:在确定了全距后,—般进行等距分组
- 组距~=极差/组数
- 确定各组段的上下限
- 各组的起点被称为该组的下限,终点被称为上限
显然,各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍
从频数表可获得的信息
- 集中趋势
- 高峰组段在什么位置出现
- 离散趋势
- 数据的分布范围是什么,分散程度如何
- 分布形状
- 是否对称,分布曲线的形状
- 正、负偏态和左、右偏
- 分布特征
- 一个峰还是两个峰,有没有极端值
只是有个大致影响,数据很少事就不需要。
3.2 集中趋势的描述指标
均值 Mean
-
描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示 μ \mu μ 和 X ˉ \bar{X} Xˉ
-
注意:均数在书写上应当带有和原始测量值相同的测量单位
-
均数的实质:把总体各单位的差异全部抽象化,采用取长补短的方法把变量值小于平均数的负离差全部用大于平均数的正离差抵消补齐
-
优点:
- 高度浓缩了数据的精华,使大量的观测数据转变为一个代表性数值。数据资料中任何频次、次序和数值大小的变化,都会引起平均数的改变。因此它是灵敏的,也是对资料所提供信息运用得最为充分的
- 大家都明白,都爱用,结果便于比较,传播
-
缺点
- 大锅饭:把各个观测数据之间的差异性掩盖了起来,这不一定合适
- 欺骗性:由于平均数对个别极端值反应比较灵敏,因而均数在某些情况下可能具有一定的欺骗性,这时它的结果就有可能走样。(异常值),分层计算。
-
适用范围:对称分布资料,特别是正态分布资料
中位数Median
- 是将全体数据按大小顺序排列,在整个数列中处于中间位置的那个值。它把全部数值分成两部分,比它小和比它大的数值个数正好相等。
- 中位数作为分布数列中处于中等水平的代表值,能够将全部总体单位按数值的大小等分为两个部分。所以中位数又称为二分位数。
- 表示符号:M
- 优点:
- 它是位置平均数,不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平均数更具有代表性。例如员工收入的例子,其中位数就是410元,显然要比均数更能够代表数据的集中趋势
- 缺点:
- 不是所有人都能理解
- 损失信息:由于中位数只考虑居中位置,其它变量值比中位数大多少或小多少,它是无法反映出来的。所以,用中位数来描述连续变量会损失很多信息。
- 不稳定:当样本量较小时,中位数会不太稳定,并不是一个好的选择。
因此,对于对称分布的资料,分析者往往优先考虑使用均数,仅仅是对均数不能使用的情况才是用中位数加以描述。
几何均值 Geometric Mean
- 在医学、化学研究中经常会遇到—种特殊的资料,其数值呈等比方式记录,本身为正偏态分布,但是如果进行对数变换,则变换后的数据呈正态分布
- 为了能够充分利用数据信息,可以考虑先进行对数变换,然后求得此时的算术均数,最后将该均数反对数变换回来,这就是所谓的几何均数
- 表示符号:G
众数:出现次数最多的数据
截位均数:首位截掉一定比例的数据
函数方式:
- Average()
- Median()
- Geomean
- Mode()
- Trimmean()
3.3 离散趋势的描述指标
全距Range
- 优点:
- 容易理解
- 适用范围最广
- 缺点:
- 不稳定
方差 deviation
- 描述数据的离散程度
- 标准差:解决了量纲问题
- 样本标准差:
变异系数 Coefficient of variation
- C V = S / X ˉ CV = S / \bar{X} CV=S/Xˉ 方差除以样本均值
- 解决了不同资料间变异程度对比的问题
百分位数
- 是一种位置指标,用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大
- 适用于各种分布
- 只有样本量较大时结果才比较稳定,对位于两端的百分位数而言更是如此。100例时,P95右侧才5例。
四分位数
- 即P25、P50和P75分位数的总称
- 正好将样本值四等分,且P25和P75中间包括了中间50%的观察值,因此四分位间距既排除了两侧极端值的影响,又能够反映较多数据的离散程度
函数方式
- var.p() p代表样本,s代表总体
- stdev.p()
- PERCENTILE.INC()
- QUARTILE.INC()
3.4 分类变量的常用描述指标
基本的描述方式
原始数据:
频数列表 百分比 累计频数 累计百分比 众数 比率 相对数
4 正态分布
普通正态分布
正态分布的两个重要特征:均数
μ
\mu
μ和标准差
δ
\delta
δ
- 记为 X 一 N ( μ , δ 2 ) X一N(\mu,\delta^2) X一N(μ,δ2)
- μ \mu μ是分布曲线的峰位置(集中趋势),又被称为位置参数
- δ \delta δ大离散程度大、 δ \delta δ小离散程度小(离散趋势),又被称为形状参数
- 正态分布的对称性
标准正态分布
不同的正态分布N(u,o2),其曲线下方的面积分布规律各不相同,使得在应用上很不方便
- 需要为每种分布单独计算曲线下面积分布规律
- 为此统计学家优先计算出了均数为0,标准差为1的正态分布 N ( 0 , 1 ) N(0,1) N(0,1)曲线下面积分布规律
95% | 99% | |
---|---|---|
双侧 | 1.96 | 2.53 |
单侧 | 1.64 | 2.33 |
95% 双侧个体参考范围:
(
X
ˉ
−
1.96
δ
,
X
ˉ
+
1.96
δ
)
(\bar{X} - 1.96\delta,\bar{X} +1.96\delta)
(Xˉ−1.96δ,Xˉ+1.96δ)
具体应用:血细胞正常范围
5 二项分布
- 从三扇门里面选择一扇门,其中一扇门后面是汽车,另两个后面是山羊。现在你已经选好了一扇门,主持人打开另两扇中的一个,看到是一只山羊,然后主持人问:想改变选择吗﹖请问:改变选择是否对你有利(更可能赢得汽车)?
- 是的,你应当改变选择,因为当初选择时只有1/3的机会赢得汽车,而改变的话(由于已经去掉了—扇门),会有2/3的机会获胜。
- 结果是错的,如何反驳
Bernoulli试验序列
- 在重复实验中,如果对每一次实验,出现的结果只有两种情况,即Bernoulli试验。
- 每次试验的条件不变。即每次试验中,结果A发生的概率不变(假设均为pi) 。
- 各次试验独立。即一次试验出现什么样的结果与前面己出现的结果无关。
- 由满足以上三个条件的n次Bernoulli试验构成的序列被称为是Bernoulli试验序列
- 公式:
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
P(X=k) = C^k_n p^k(1-p)^{n-k}
P(X=k)=Cnkpk(1−p)n−k
若X服从二项分布,则记 X 一 B ( n , p ) X一B(n,p) X一B(n,p)
均值 μ = n p \mu=np μ=np,方差 δ = n p ( 1 − p ) \delta=np(1-p) δ=np(1−p) - 基本特征:
- 当pi=0.5时,图形对称;当pi≠0.5时,图形呈偏态,但随n的增大,图形逐渐对称。
- 因此,当n较大,pi不太极端时,可以采用正态近似方法计算概率分布规律(例如计算参考值范围)
- 具体应用
博彩行业的规则规定
6 统计推断
统计推断
-
统计推断,或者说统计估计,就是根据你拥有的信息来对现实世界进行某种判断。
-
生活中的推断
- 可以根据一个人的衣着、言谈和举止判断其身份
- 可以根据一个人的脸色,猜出其心情和身体状况
-
统计中的推断也不例外,只不过它是完全依据数据做出的
- 从数据得到关于现实世界的结论的过程就叫做统计推断(statistical inference)
-
重要提示:任何一个总体参数都可以进行统计推断!
- 例:配件日消耗量的均数、中位数、标准差、四分位数间距、变异系数等等,都是可以进行统计推断的
- 只是由于传统统计学发展的先后,以及各指标用途的重要性不同,导致了针对算术平均数的推断最为大家所熟悉
6.1 抽样误差与标准误差
-
应用场景
基于配件A的领用历史数据,我们能否估计出其总体日平均领用量的大致范围?- 样本均数显然可以作为总体均数的最佳估计值
- 真实的总体均数显然应当离样本均数不远,但究竟会在多大的区间范围内呢?
- 也就是说,这个点估计究竟有多准确呢
-
抽样误差与标准误
-
抽样误差:由抽样导致的样本均数与相应总体均数在数值上的差异
- 但是如何定量表达其大小?
- 样本均数与真实总体均数之差看上去是可以表示抽样误差大小的,但实际上无法计算
-
考虑在一个总体中实际上可进行无限多次抽样,实际上这些样本的抽样误差应当也服从某种分布规律
-
从统计总体的角度来看,其实就是要回答对于一个相同的总体,如果我们从中进行抽样研究的话,则相应的样本统计量(例如均数)的离散程度是怎样的。
-
样本均数存在随机变异,但在大量重复观察的情况下,可以证明同样有一定的规律,即:样本均数的概率分布。
- 特点:样本均数的总体均数与样本资料的总体均数相同,但标准差减小。
-
样本均数服从 N ( μ , δ 2 ) N(\mu,\delta^2) N(μ,δ2),样本均数的抽样误差是随机的,因此也有相应的规律(概率密度曲线 N ( 0 , δ 2 ) N(0,\delta^2) N(0,δ2))。
-
样本均数所服从的分布 N ( μ , δ 2 ) N(\mu,\delta^2) N(μ,δ2)中,其方差的平方根同样是标准差(标准偏差),只是该标准差表示的是样本均数抽样误差离散程度大小
- 因此她又被称为样本均数的标准误( Std. error,标准误差,代表错误的大小)
代表样本的统计量回归总体参数的所可能出现的统计量的大小
- 因此她又被称为样本均数的标准误( Std. error,标准误差,代表错误的大小)
-
显然,影响抽样误差大小的因素有两个
- 总体内各个体间的变异程度
- 样本含量N的大小
-
使用标准误,我们就可以知道如果使用样本统计量(如均数)来估计总体参数,可能的变动范围是多大,从而提高结论的实用性
6.2 中心极限定理
定理: 假设从均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的有限的任意一个总体中抽取样本量为n的样本,当n充分大时,样本的均值的抽样分布就会服从均值为 n μ n\mu nμ,方差为 n σ 2 n\sigma^2 nσ2的正态分布。
理解: 无论是平均分布还是指数分布,随着我们从中抽取越来越多的随机样本,并在直方图上绘制样本均值,我们会得到一个正态分布的结果,即即使数据不是正态的,从中抽取的样本均值的分布也是正态的。
实际含义:
在分析领域,我们每天都会遇到各种各样的数据,而源数据的分布并不总是被我们所知道的,但是,因为我们了解中心极限定理,所以我们甚至不需要关心源数据的分布,因为我们总是可以得到正态分布。
均值正态分布的实际含义:
- 我们可以用均值的正态分布来分配置信区间。
- 我们可以进行T检验(即两个样本均值之间是否存在差异)
- 我们可以进行方差分析(即3个或更多样本的均值之间是否存在差异)
独立同分布的中心极限定理
设随机变量
X
1
,
X
2
,
.
.
.
.
.
.
X
n
,
.
.
.
.
.
.
X_1,X_2,......X_n,......
X1,X2,......Xn,......独立同分布,并且具有有限的数学期望和方差:
E
(
X
i
)
=
μ
,
D
(
X
i
)
=
σ
2
(
i
=
1
,
2....
)
E(Xi)=μ,D(Xi)=σ^2(i=1,2....)
E(Xi)=μ,D(Xi)=σ2(i=1,2....),则对任意x,分布函数
满足
该定理说明,当n很大时,随机变量
近似地服从标准正态分布N(0,1),
因此,当n很大时,
近似地服从正态分布N(nμ,nσ2).
例:一个复杂系统由100个相互独立的元件组成,在系统运行时每个元件损坏的概率为0.1,为使系统正常工作,至少必须有85个元件工作,求系统的可靠度(正常工作的概率)。
6.3 t分布
抽样误差与标准误
由于在实际研究中,我们往往无法得知总体标准差
δ
\delta
δ,但可以用样本标准差s估计,从而均数标准误的估计公式为
标准误与t分布
- 如果使用总体标准差进行计算,则
服从标准正态分布 - 但由于一般只能使用样本标准差进行估计,则
服从的是t分布 - 自由度:样本数值可以自由取值的个数
- 均值是最常见的限制条件
t分布
- 自由度是v,记为t(v)分布
- 由于每个自由度v对应一个分布,因此t分布是一簇分布而不是一个分布。
t
t
t 等于
∞
\infty
∞时等价于标准正态分布。
- t分布的图形特征和t界值
- t分布曲线是关于t = 0对称的单峰曲线,自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积。当自由度无限增大时,t分布逼近于标准正态分布。
-
给定自由度为v,t分布曲线下面积有分布规律
- 统计学家为此编制了 t 界值表
-
对于大量重复随机抽样而言,样本率 p 同样会围绕着总体率波动,样本量n的值越大,这种波动就越小
-
当n的值比较大时,p的分布就近似于均数为p,标准差为sqrt(p*(1-p)/n)的正态分布。
-
—般的标准是npi和n(1-pi)均大于5,且n>40
-
当样本情况接近此标准时,往往会进行校正
6.4 参数估计
推断方法:点估计与区间估计
- 样本均数直接作为总体均数的点估计,但显然仅有点估计是不够的
- 区间估计:根据相应标准误的大小,按照一定的可信度给出一个总体参数可能的取值范围
- 该区间被称为可信区间
- 可信区间的计算
则根据标准正态分布的面积规律,应当有95%的样本均数在以下范围内
对上式进行变换后即得:
该表达式被称为总体均数的95%可信区间
μ
\mu
μ是总体均值,
X
ˉ
\bar{X}
Xˉ是样本均值,样本均值加减标准误。但总体误差未知,用样本标准差S计算,由于变换后的统计量服从的是
t
t
t分布,因此95%的边界也要按
t
t
t分布界值来给出,不再是1.96,
- 可信区间的含义
- 可信度仅仅是大量重复抽样时的一个渐近概念。认为95%的可信区间包括真实参数值的概率为0.95"是个错误的理解
- 计算出的区间是固定的,而总体参数值也是固定的。因此只有两种可能:包含或者不包含,这当中没有任何概率可言。95%的可信度只是说如果我们能够大量重复试验的话,则平均下来每100个可信区间中,会有大约95个覆盖真实值
- 可信区间的应用
- 基准值(Norms值)的设定
- Norms值是产品研发领域很常见的一种产品标准设定
- 例:某产品的平均使用满意度Norms值为6.3分
- 所有抽样调查的结果报告都应当提供区间估计
- 基准值(Norms值)的设定
7 假设检验
7.1 为什么要学习假设检验
-
从统计描述结果中发现可能的数据规律
-
但如果是抽样研究的样本,此时获取的只是样本的信息
-
研究者关心的并不仅仅是样本,更希望了解相应的总体特征
- 参数估计:推估样本所在的总体特征,如市场的总容量
- 假设检验:对提出的一些总体假设进行分析判断,做出统计决策
-
假设检验的应用价值:药物筛选研究,产品定价,产品包装,一般用于新品上市研究
-
假设检验步骤之前需要做的工作
-
运用统计知识根据研究设计和资料的性质正确选择分析过程
- 资料的性质指数据,连续性的、有序分类的还是无序分类的等等。
-
初步的统计描述(集中趋势、离散趋势)和统计分析
- 集中趋势:均数、P50
- 离散趋势:标准差/方差、四分位数间距
- 分布特征
- 异常值及其他
-
7.2 假设检验的基本原理
现有的样本均数和已知总体均数不同,其差别可能有两个方面的原因造成
- 样本来自已知总体(假定的那个总体),现有差别为抽样误差
- 样本所来自的总体与已知总体不同,存在本质差异
- 为识别这两种可能,应当对其做假设检验
假设检验原理:
- 基础:小概率原理,即认为小概率事件在一次随机抽样中不会发生
- 最经典的小概率事件:瞎猫碰到死耗子
- 基本思想:先建立一个关于样本所属总体的假设,考察在假设条件下随机样本的特征信息是否属小概率事件,若为小概率事件,则怀疑假设成立有悖于该样本所提供特征信息,因此拒绝假设
- 事实上,小概率事件在随机抽样中还是可能发生的,只是发生的概率很小。若正好碰上了,则假设检验的结论就是错误的。当然,犯这种错误的概率很小,是我们为了做出统计决策而愿意付出的代价
7.3 假设检验的标准步骤
一、建立假设
- 根据统计推断的目的而提出的对总体特征的假设
- 统计学中的假设有两方面的内容:
- 检验假设(hypothesif to be tested),亦称原假设或无效假设(nullhypothesis),记为 H 0 H_0 H0
- 备择假设(alternative hypothesis),记为
H
1
H_1
H1与
H
0
H_0
H0相对立,意义在于当
H
0
H_0
H0被拒绝时供采用。两者是互斥的,非此即彼
- H 0 H_0 H0: μ = μ 0 \mu=\mu_0 μ=μ0, H 1 H_1 H1: μ ≠ μ 0 \mu\neq\mu_0 μ=μ0
- H 0 H_0 H0: μ = 60 g \mu=60g μ=60g, H 1 H_1 H1: μ ≠ 60 g \mu\neq60g μ=60g
二、确定检验水准
- 实际上就是确定拒绝H时的最大允许误差的概率
- 检验水准(size of test),常用α表示,是指检验假设H本来成立,却根据样本信息拒绝 H 0 H_0 H0的可能性大小,换言之,α是拒绝了实际上成立的 H 0 H_0 H0的概率
- 常用的检验水准为α= 0.05
- 其意义是:在所设 H 0 H_0 H0的总体中随机抽得一个样本,其均数比现有样本均数更偏离总体均数的概率不超过5%
- 类似于考试中习惯用60分作为及格线
三、计算统计量和P值
- 实际上在此之前还有一步叫做进行试验,样本数据即从此得来
- 统计量只是工具,概率值才是目的,它可以客观衡量样本对假设总体偏离程度
- 从 H 0 H_0 H0假设的总体中抽出现有样本(及更极端情况)的概率,即P值
- 例:600次赢100次是
H
0
H_0
H0假设的情况,赢1次就是现有样本情况
- 更极端的情况就是连1次也没有赢
- 以及居然赢了400多次这类更罕见的情况
- 该统计量应当服从某种已知分布,从而可以计算出P值
- 各种检验方法所利用的分布及计算原理不同,从而检验统计量也不同(t分布是t检验,卡方分布是卡方检验,F分布是方差分析)
四、得出推断结论
- 按照事先确定的检验水准α界定上面得到的P值,并按小概率原理认定对H的取舍,作出推断结论
- 若P≤α
- 基于H假设的总体情况出现了小概率事件
- 则拒绝 H 0 H_0 H0,接受 H 1 H_1 H1,,可以认为样本与总体的差别不仅仅是抽样误差造成的,可能存在本质上的差别,属“非偶然的(significant)",因此,可以认为两者的差别有统计学意义
- 进一步根据样本信息引申,得出实用性的结论
- 若P>α
- 基于 H 0 H_0 H0出现了很常见的事件
- 则样本与总体间的差别尚不能排除纯粹由抽样误差造成,可能的确属“偶然的(non-significant)",故尚不能拒绝H
- 因此,认为两者的差别无统计学意义,但这并不意味着可以接受
H
0
H_0
H0
- 尚不能认为有罪≠可确认无罪
关于掷筛子的假设检验
- 建立假设
- H:筛子均匀, π ≠ 1 / 6 \pi\neq1/6 π=1/6
- H:(筛子不均匀)
- 确定检验水准
*α = 0.05 - 进行试验,计算检验统计量和P值
- 相应的试验结果在 H 0 H_0 H0下对应的概率为1/600略多一点
- 得出推断结论
- 基于 H 0 H_0 H0出现了小概率事件,结果有非常非常显著的统计学意义,你出老千!
7.4—类错误、二类错误与检验效能
- 检验效能:
H
1
H_1
H1是真的,实际拒绝
H
1
H_1
H1的概率=1-β,称为Power,又称为检验效能
- 由于两种可能的结论中,往往希望得到的是拒绝 H 0 H_0 H0的结论,所以实际问题在分析时检验效能不应当太低
如何控制两种错误?
- α可以事先人为设定
- 希望拒绝结论更可信,则减小α
- β只能间接控制
- 增大样本量以减小标准误
- 放大α来减小β
- 实质:牺牲一个来保障另一个
7.5假设检验的注意事项
假设检验的单侧和双侧问题
- 双侧检验
- 不知道样本所在总体和假定总体的相应指标谁高谁低
- 得到拒绝结论更困难,因此相应的结果也更稳妥
- 单侧检验
- 在专业上可知所在总体的相应指标不可能更高/更低于假定总体值
- 单侧检验更为敏感,但设定单侧检验需要有充分的专业知识来支持
统计方法应当注意其适用条件
- 独立性(independence):各观察值间相互独立,不能互相影响
- 正态性(normality):理论上要求样本取自正态总体
- 方差齐性(homogeneity):两样本所对应的总体方差相等
- t检验、卡方检验要求三个条件,方差分析有最小样本需求
假设检验的结论不能绝对化
- 本身就保留了犯错误的可能性
- 样本量导致的检验效能问题
- 样本量太小,导致检验效能不足,从而无法检出可能存在的差异
- 样本量太大,得出的有统计学意义的结论可能根本就没有实际意义
7.6单样本t检验的基本原理
最常见、最常用
- CCSS项目基期的信息指数值被设定为100,但这是全部城市的平均水平,请考察基期时广州信心指数均值是否和基准值有差异
- 推断样本是否来自某已知总体,即要检验样本所在总体的均数是否等于已知的总体均数
- 为了回答该问题,统计学上采用了小概率反证法的原理:我们有如下两种假设:
- H 0 H_0 H0:样本均数与(假定的)总体均数的差异完全是抽样误差造成
- H 1 H_1 H1:样本均数与总体均数的差异除由抽样误差造成外,也反映了两个总体均数确实存在的差异
- 先假设 H 0 H_0 H0成立,即一切都是抽样误差造成的。在这个前提下,现有的样本是从已知均数的大总体中抽出来的
- 显然,样本均数和假设总体均数之差就代表了偏离假设的程度
- 但此差异所对应的概率究竟是大还是小?仅看这一个数字很难做出判断。因为这还和数据的离散程度有关,为此需要找到某种方式对这一差值进行标准化
- 标准化的基本方式就是将差值除以表示样本均数离散程度的指标
- 在单样本的情况下,样本的均数服从t分布
- 在单样本的情况下,样本的均数服从t分布
- 这个被标化的差值,就是本次检验中所谓的统计量
- 由于该统计量服从t分布,可利用该分布得到相应的概率值,故而此处的方法被称为为单样本t检验
- 最终求得的P值表示从假设总体中抽出当前样本均数(及更极端情况)的概率总和
- 如果该P值太小,成为了我们所定义的小概率事件(小于等于α水准),则我们怀疑所做的假设不成立,从而拒绝
H
0
H_0
H0
- 基本信念:小概率事件在一次实验中不可能发生
- 反之,我们就不能拒绝 H 0 H_0 H0但一般也不太好说去接受他
单样本t检验的适用条件
- 因为有中心极限定理,一般均数的抽样分布都不会有问题,真正会限制该方法使用的是均数是否能够代表相应数据的集中趋势
- 强烈偏态分布时,均数已经无法正确代表数据的集中趋势
- 也就是说,只要数据分布不是强烈的偏态,一般而言单样本t检验都是适用的
7.7两样本t检验的基本原理
- 目的:推断两个样本是否来自相同的总体,更具体地说,是要检验两样本所代表的总体均数是否相等
- 当数据服从正态分布时,总体只需要两个参数就可以确定
- 检验假设
- 无效假设 H 0 H_0 H0: μ 1 = μ 2 \mu_1=\mu_2 μ1=μ2
- 备择假设 H 1 H_1 H1: μ 1 ≠ μ 2 \mu_1 \neq \mu_2 μ1=μ2
- 检验水准:α= 0.05
基本原理:
- 其基本原理和单样本t检验相同
- 首先假设 H 0 H_0 H0:两样本来自同一总体
- 当该总体服从正态分布时,就可以采用两样本t检验来计算从该总体中抽得这样两个样本(及更加极端情况)的概率为多少,从而做出统计推断
适用条件
- 由于
H
0
H_0
H0假设的是两样本来自同一总体,分析目的只涉及到均值,因此两样本t检验在推导过程中除了要求总体服从正态分布外,还要求两样本各自所在总体方差相同
- 独立性:对结果的影响较大,但一般没问题
- 正态性:有一定的耐受能力,可以通过直方图等进行观察
- 注意应当要分组考察
- 方差齐性:相对而言对结论的影响较大,需要进行方差齐性检验
适用条件不被满足时的处理方式
- 情况较轻时可以采用校正t检验的结果
- 否则应使用变量变换使之满足条件
- 或采用
- 非参数检验方法
- 贝叶斯推断方法
- 计算统计学方法(Bootstrap抽样等)
7.8卡方检验的基本原理
(1)自由度为1的
χ
2
\chi^2
χ2分布
若
Z
−
N
(
0
,
1
)
Z-N(0,1)
Z−N(0,1),则
Z
2
Z^2
Z2的分布成为自由度为1的
χ
2
\chi^2
χ2分布
(2)
Z
1
,
Z
2
,
…
.
Z
x
Z_1,Z_2,….Z_x
Z1,Z2,….Zx互相独立,均服从N(0,1)
则
Z
1
2
+
Z
2
2
+
…
+
Z
v
2
Z_1^2+Z_2^2+…+Z_v^2
Z12+Z22+…+Zv2的分布称自由度为
v
v
v的
χ
2
\chi^2
χ2分布,记为
χ
(
v
)
2
\chi_{(v)}^2
χ(v)2或
χ
2
(
v
)
\chi^2(v)
χ2(v),或简记为
χ
2
\chi^2
χ2.
自由度 v v v很大时, χ ( v ) 2 \chi_{(v)}^2 χ(v)2近似地服从正态分布,有 Z = χ ( v ) 2 − v 2 v Z = \frac{\chi_{(v)}^2-v}{\sqrt{2v}} Z=2vχ(v)2−v, χ ( v ) 2 \chi_{(v)}^2 χ(v)2服从均数为 v v v,方差为 2 v 2v 2v的正态分布
χ 2 \chi^2 χ2检验的基本原理
-
χ 2 \chi^2 χ2检验是用途很广的一种方法,主要用于分类数据的统计推断
- 分类资料的分布是否符合假设
- 两个率或两个构成比比较的卡方检验
- 多个率或多个构成比比较的卡方检验
- 分类资料的相关分析
- 模型是否和样本数据完美拟合
-
H 0 H_0 H0:观察频数与期望频数没有差别
-
其原理为考察基于 H 0 H_0 H0的理论频数分布和实际频数分布间的差异大小,据此求出相应的P值
-
基于 H 0 H_0 H0成立,两样本所在总体无差别的前提下计算出各单元格的理论频数来
-
此时轿车拥有概率的最佳估计值就是样本合计的轿车拥有比例
理论频数 -
基于轿车拥有概率的最佳估计值,就可以得出各单元格的理论频数
残差 -
设A代表某个类别的观察频数,E代表基于 H 0 H_0 H0计算出的期望频数,A与E之差被称为残差
残差平方和 -
残差可以表示某一个单元格中观察值和理论值的偏离程度
-
但残差有正有负,相加后会彼此抵消,总和仍然为0
-
为此可以将残差平方后求和,以表示样本总的偏离无效假设的程度
卡方统计量 -
另一方面,残差大小是一个相对的概念
- 相对于期望频数为10时,20的残差非常大
- 相对于期望频数为1000时20就很小
-
因此又将残差平方除以期望频数再求和,以标准化观察频数与期望频数的差别,这就是卡方统计量,其公式为:
卡方统计量 -
当观察频数与期望频数完全一致时,卡方值为0
-
观察频数与期望频数越接近,两者之间的差异越小,卡方值越小* 反之,观察频数与期望频数差别越大,两者之间的差异越大,卡方值越大
四格卡方检验的标准做法
- 建立假设检验:
H0:r1=r2,不吃晚饭对体重下降没有影响,即吃不吃晚饭的体重下降率相等;
H1:r1≠r2,不吃晚饭对体重下降有显著影响,即吃不吃晚饭的体重下降率不相等。α=0.05 - 计算理论值
- 计算卡方值
计算出卡方值为5.498
查卡方表求P值
在查表之前应知本题自由度。按卡方检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查卡方界值表,找到3.84,而本题卡方=5.498即卡方>3.84,P<0.05,差异有显著统计学意义,按α=0.05水准,拒绝H0,可以认为两组的体重下降率有明显差别。
若各理论数与相应实际数相差越小,卡方值越小;如两者相同,则卡方值必为零。
7.9常用假设检验方法的统计软件实现
7.10初学者如何正确选择统计分析方法
确定假设检验方法的两大要素
-
研究设计
- 成组设计:比较男性和女性对某电影的评分
- 配对设计/配伍设计:受试者在三种候选包装中选择最满意的一种
- 更加复杂的试验设计:拉丁方设计、均匀设计等
-
变量类型
- 连续变量:两种促销方式的销量比较
- 有序变量:评价结果为优良中差的比较
- 无序变量:不同学校的毕业生择业去向比较
对自身总体进行推断
- 连续变量:单样本t检验
- 新样品评分是否达到基本要求
- 无序分类变量:二项分布、卡方分布检验
- 筛子分布是否均匀
- 性别比例是否为假定的数值
- 有序分类变量:秩和检验
- 成绩优良中差的分布是否符合假定状况
因变量:连续
- 单个自变量: 二分类 t检验
- 成组t检验 促销活动对销量有无作用
- 配对t检验 培训前后销售额的比较
- 单个自变量:多分类 单因素方差分析
- 三种促销方式的销量比较
- 后续有两两比较问题
- 单个自变量:连续
- 相关分析:考察两变量在数量上的依存关系
- 回归分析:考察一个变量对另一个变量影响程度的大小
- 多个自变量:分类变量为主 方差分析模型
- 便于两两比较
- 有多种图形帮助分析
- 自变量间可能有主次之分
- 多个自变量:连续变量为主 线性回归模型
- 本质上和方差分析模型等价
- 可利用散点图、回归线等图形帮助解释
- 可用逐步法对自变量进行自动筛选
因变量:有序分类
- 当分类数较多时,可近似按照连续变量处理
- 单个自变量
- 二分类 (秩和检验)
- 多分类 (秩和检验)
- 后续有两两比较问题
- 连续 Logistic回归
- 多个自变量
- Logistic回归
- 判别分析
- 最优尺度分析
因变量:无序分类(含二分类)
- 单个自变量
- 二分类 卡方检验
- 多分类 卡方检验
- 后续有两两比较问题
- 连续 没有简单模型
- 多个自变量:分类变量为主
- Logistic回归分析
- 判别分析
- 最优尺度分析
简单推断方法总结
- 对连续因变量的统计方法是最全面的
- 有序分类变量往往都近似的在当作连续性变量处理,或者退化成无序分类变量处理
- 无序分类因变量一般使用卡方检验,但只能得到粗糙的结果,精细分析困难
- 复杂的统计模型实际上都是让各种变量在拟合时尽量向连续性变量靠拢(变量变换、概率评分)
8 方差分析
F分布
单因素方差分析:
(一)单因素方差分析概念理解步骤
是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。
例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。
单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。
单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值的变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。
单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。
(二)单因素方差分析原理总结
容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量值的变动是由随机变量因素引起的。
(三)单因素方差分析基本步骤
1、提出原假设:H0——无差异;H1——有显著差异
2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。
3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。
4、给定显著性水平,并作出决策
统计分析轻松入门
彻底理解中心极限定理——最重要的统计定理之一