参考 :ZOE’s MindMap、 统计学(贾俊平版)
阅读提示:内容较长为了检索便捷;如有错误,请指出。
笔记提示:部分内容暂时未完善,后续不断更新
数学基础扫盲
认识
数学是一个工具:通过收集、分析、解读数字中的信息
- 面试
对概率论和数理统计的基础知识的考察是重要组成部分。因为在工作中很多分析报告和制定策略都是基于概率统计和数据统计的一些定理。
在面试和实际工作中更加着重对于,结合工作这些知识点的理解和应用
1. 描述性统计
1.基本概念
- 数据分类 1
数据 | 类型 | 逻辑与数学运算 | 举例 |
---|---|---|---|
定性数据 | 定类尺度 | = != | 身份证 |
定序尺度,次序 | = != < > | 年级 | |
定量数据 | 定距尺度,上述属性+有固定单位 | = != < >+ - | 分数、温度 |
定比尺度,上述属性+比例意义 | = != <>+ -*/ | 长度、高度、利润、薪酬、产值 |
-
截面数据与时序数据
- 截面数据:也称静态数据指在同一时间截面上反映一个总体的一批,如:人口普查数据
- 时间序列数据:同一统一指标按时间顺序记录的数据列,例如:某省从1940年至1999年各个年末的人口数是由50个时点数组成的时序数列
-
描述统计
用数值、表格、图形等汇总数据,使得数据易于理解和解释。 -
推断统计
用样本数据对总体数据进行估计和假设检验 -
数据展示&目的
- 数据分布
条形图 :频数/相对频数分布
饼形图 :相对频数/百分比频数分布 - 数据数值
打点图 :整个数据范围内的分布
直方图 :在一个「区间组集合」上的「频数分布
茎叶显示 :展示等级顺序和分布形态 - 进行比较
复合条形图
结构条形图 - 相关关系
散点图
趋势图
- 数据分布
2.表格图形
1.单变量
- 分布型数据
- 表格方法
- 频数分布,数据的表格汇总
- 相对频数分布,算公式为:频数/总数=相对频数。
- 图形方法
- 条形图 bar chat
横轴:组别;纵轴:频数/相对频数 - 饼图 pie chat
相对频数
- 条形图 bar chat
- 表格方法
- 数值型数据
- 表格方法
- 频数分布
步骤:1.确定组数(互不重叠) 2.确定每组的宽度,近似组宽=(max-min)/组数 3. 确定组限,确保每个数据落在一个组内 - 相对频数分布
- 累计分布
表格汇总
图形化:累计曲线 ogive
- 图形方法
- 打点图 dot plot
模轴表示数据值域,每一数据值用打在数轴上的点表示。如值=18的点有三个,就在18的位置打三个点; - 直方图 histogram
纵轴:频数/相对频数。与 bar plot 的区别 ,矩形相连,反映数据的形态分布 - 茎叶图
- 打点图 dot plot
2.双变量
- 表格方法
- 交叉分组表
同时展示两个变量的表格。注意辛普森悖论,单独的表与交叉表得出不同的结论。原因是,存在影响结论的隐藏变量,注意需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必需了解该情境是否存在其他潜在要因而综合考虑。
- 交叉分组表
- 图形方法
- 数值数据
散点图:数量变量间的关系
趋势图:相关性近似程度表达 - 分类数据
复合/簇状条形图 side by side
结构/堆砌条形图 stacked chart
- 数值数据
2.数值方法
概述 :度量样本和总体参数
包括:
- 中心位置
- 平均值
- 众数
- 中位数
- 分位数
- 变异程度
- 四分位数间距
- 方差&标准差
- 标准差系数
- 平均值绝对偏差
- 分布形态
- 偏度
- 峰度
- Ȥ分数
- 相对位置
- 切比雪夫定理
- 经验法则
- 异常值
- 线性关系
- 协方差
- 相关性系数
1.中心位置的度量
数据集中趋势的度量
- 平均值
用来表示随机变量的理想平均水平。随着实验次数的增多,x的均值会越发趋近于期望值。- 公式
- 离散型随机变量。基于分布率。Ex:随机变量及其对应的概率两者的乘积的累加。
E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\displaystyle\sum^\infty_{k=1}x_kp_k E(X)=k=1∑∞xkpk - 连续型随机变量,基于概率密度函数fx。
E ( X ) = ∫ − ∞ ∞ x d x E(X)=\displaystyle\int^{\infty}_{-\infty}{xdx} E(X)=∫−∞∞xdx
- 离散型随机变量。基于分布率。Ex:随机变量及其对应的概率两者的乘积的累加。
- 类别
- 算术平均数,调整平均数:P%平均数,删除P%的最大值和最小值后的均值
x ‾ = ∑ i = 1 ∞ x i n \overline x=\frac{\displaystyle\sum^\infty_{i=1}x_i}{n} x=ni=1∑∞xi - 加权平均数
x ‾ = ∑ i = 1 k x i f i ∑ i = 1 k f i \overline x=\frac{\displaystyle\sum^k_{i=1}x_if_i}{\displaystyle\sum^k_{i=1}f_i} x=i=1∑kfii=1∑kxifi - 几何平均数
n个数值乘积的n次方,应用:确定几个连续时期的平均变化率,例如财务的 增长率
G n = x 1 x 2 x 3 … … x n n G_n=\sqrt[n]{x_1x_2x_3……x_n} Gn=nx1x2x3……xn
- 公式
- 众数 mode
出现次数最多的数, 不受极端值得影响。众数只有在数据 量较大的时候才 有意义。且众数可能有多个,但多个众数无意义 - 中位数 median
包含异常值时,比均值更合适 - 分位数
随机变量在样本中的排序情况,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。作用 :用来监测异常数据:根据业务规则设定一个合理的分位区间,区间之外的数据要进行异常处理。例如和历史订单量相比,单日订单量过高过低都要进行相应的分析 - 公式
求对应分位数对应的值
X p = X L + p ∗ N − F L F p i p X_p=X_L+\frac{p*N-F_L}{F_p}i_p Xp=XL+Fpp∗N−FLip
p 百分位数,位置指标 、L 位置前一个分组上限 、N 样本总数或频数、Fl前一个分组频数 、Fp P 所在位置分组频数 、ip 分组的长度- 百分位数
- 定义 :第p百分位数 至少有p%的观测值<=该值 且 至少有(1-p%)的观测值>=该值
- 计算
- 数据按「升序」排列
- i= (P/100)n
p为百分位数 n为观测值个数 ;i 不是整数 向上取整(大于i的下一个整数)\i是整数 第ⅰ和(i+1)项的平均值
- 常用
四分位数 第25、50、75百分位数 50百分位数○=○中位数
五分位数 第20、40、60、80百分位数
十分位数⊙第10、20…90百分位数
第
- 四分位数
Q1: P=25%, 较小四分位数
Q2: P=50%, 中位数
Q3: P=75%, 较大四分位数
- 百分位数
2.变异程度的度量
数据的离散程度
- 极差range
d = max -min,用于粗略检查产品 质量 的稳定性和进行质 量控制 - 四分位数间距IQR
IQR = Q3- Q1 ,中间50%数据的极差 - 方差 D(X)
样本与均值的离差平方和的均值 ,度量随机变量偏离期望的程度,刻画数据的波 动性和稳定性,方差越大,结果未知性越大。
总体方差: σ 2 = ∑ ( x i − μ ) 2 N \sigma^2=\frac{\sum{(x_i-\mu)^2}}{N} σ2=N∑(xi−μ)2
样本方差: s 2 = ∑ ( x i − x ‾ ) 2 n − 1 s^2=\frac{\sum{(x_i-\overline x)^2}}{n-1} s2=n−1∑(xi−x)2
样本方差估计总体方差:1.无偏差估计:采用(n-1)总体方差总是比样本方差大一点, - 标准差 𝜎(X)
s = s 2 s=\sqrt {s^2} s=s2
σ = σ 2 \sigma=\sqrt {\sigma^2} σ=σ2
标准差也被称为标准偏差,或者实验标准差,与原数值单位相同,易于解释更常用,在概率统计中最常使用作为统计分布程度上的测量依据 - 标准差系数
(标准差/平均值)*100% ,用于对变异程度的相对度量,比较不同标准差和不同均值的变异程度 - 平均值绝对偏差MAE
M A E = ∑ ∣ x i − x ‾ ∣ n MAE=\frac{\sum|x_i-\overline x|}{n} MAE=n∑∣xi−x∣
用于时间序列
3.分布形态的度量
偏度 峰度
- 正态分布
详情位于4.3 - 偏度 Skewness
数据的偏袒方向和程度- 偏态系数SK
S K = n ( n − 1 ) ( n − 2 ) ∑ ( x i − x ‾ s d ) 3 SK=\frac{n}{(n-1)(n-2)}\sum(\frac{x_i-\overline x}{sd})^3 SK=(n−1)(n−2)n∑(sdxi−x)3
n 表示样本总数 ,xi 表示样本数据 ,X- 表示样本 平均值 表示样本标准差 - 偏斜方向
分布的期望和中位数大小的关系
数据的偏态,近似:波峰位置可能是中位数和众数,均值是面积的一半 - 无偏态分布,SK = 0
基本特性:平均数=中位数=众数。概率密度函数的图形以期望为中心,左右对称,中间为最高值两边低 绝大多数样本都会落在期望值附近,也就3𝜎 - 右向偏态/正向偏态,SK >0
基本特性:平均值>众数 平均数>中位数 ,均值、极端值在右,曲线 向右延伸。
- 偏态系数SK
- 左向偏态/负向偏态 SK <0
基本特征:平均值<众数 平均值<中位数 ,均值、极 端值在左,曲线 向左延伸
- 峰度 Kurtosis
峰度系数K,用来反映频数分布曲线的陡缓程度:顶端尖峭或扁平程度的指标。K越大,陡缓程度与正态分布的差异性越大。
- 峰度系数值
在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便)。>3的峰度系数说明观察量更集中,有比正态分布更短的尾部;<3的峰度系数说明观测量不那么集中,有比正态分布更长的尾部,类似于矩形的均匀分布。 - 标准误
峰度系数的标准误用来判断分布的正态性。峰度系数与其标准误的比值用来检验正态性。如果该比值绝对值大于2,将拒绝正态性。
- 峰度系数值
- 标准峰度 k=0
相对正态分布曲线的标准峰度 - 平顶峰度 k<0
数据在众数周围分布较分散 扁平、瘦尾、肩部较胖
- 尖顶峰度 K > 0
数据在众数周围分布较集中尖峰,肥尾、肩部较瘦
4.相对位置的度量(归一化)
本质上是为了消除指标之间的量纲影响方便比较:
不同评价指标往往具有不同的量纲和量纲单位,为了消除指标之间的量纲影响,需要进行数据标准化处理,原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价
z-score
- z-score 标准分数
标准分数、 也叫z分数,是一种具有相等单位的量数零-均值规范化也称标准差标准化,经过处理的数据的均值为0,标准差为1 ,归一化在-1–+1之间。标准差分数可以回答这样一个问题:"给定数据距离其均值多少个标准差"的问题,在均值之上的数据会得到一个正的标准化分数,反之会得到一个负的标准化分数。
转化公式为: x ∗ = x − x ‾ σ x^*=\frac{x-\overline x}{\sigma} x∗=σx−x σ \sigma σ为原始数据的标准差,是当前用得最多的数据标准化方式。 - 异常值检测
基于IQR,大于上限或者小于下限。Lower Limit = Q 1 Q_1 Q1-1.5( IQR),Upper Limit = Q 3 Q_3 Q3 +1.5 ( IQR) - 衍生1:正态分布
(详情位于4.3“经验法则”)
无量纲化处理
- z-score 还有
- 相对标准化
这种方法是先给一个评价指标确定一个标准值,然后用实际值和标准值进行比较,实现指标的相对化处理,公式为:
z i = x i x s z_i=\frac{x_i}{x_s} zi=xsxi
x i x_i xi为进行标准化确定的对比标准,通常可以选择最优值或平均值作为对比标准。定的标准不同,标准值的含义也就不同。这种方法可以体现评价者进行评价的目标性。 - min-max标准化(Min-Max Normalization)
对多目标规划原理中的功效系数加以改进,从而把要评价的指标转化为可以度量的评判分数,公式为:
z i = x i − m i n ( x i ) m a x ( x i ) − m i n ( x i ) z_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)} zi=max(xi)−min(xi)xi−min(xi)
按该方法计算, z i z_i zi的取值在0~1之间。- 拓展:
标准化分数在60~100之间
本章开头的统计应用专栏中,中国人民大学中国发展指数(RCDI)就是按功效系数法对各指标值进行标准化处理的将功效系数法进行一些拓展,会得到改进的功效系数法,公式为
z i = x i − m i n ( x i ) m a x ( x i ) − m i n ( x i ) ∗ 40 + 60 z_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}*40+60 zi=max(xi)−min(xi)xi−min(xi)∗40+60
这样得到的。这种处理的效果在于,可以减小极端数值对计算结果的视觉影响,接近人们对分数的一般看法。
- 拓展:
- 区间值归一化
如果是区间上的值,则可以用区间上的相对位置来归一化,即选中一个相位参考点,用相对位置和整个区间的比值或是整个区间的给定值作比值,得到一个归一化的数据,比如类似于一个概率值0<=p<=1; - 其他归一法
比如对数归一,指数归一,三角or反三角函数归一等
大数定理
- 衍生2:大数定理
-
核心
偶然中包含着某种必然。在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率(均值接近于期望)。不是经验规律,而是在一些附加条件上经严格证明了的定理,表达一种自然规律因而通常不叫定理而是大数“定律”。大数定律有若干个表现形式。这里仅介绍高等数学概率论要求的常用的三个重要定律: -
切比雪夫大数定理
公式一,任意一个数据集中,距离其平均数 z个标准差范围内的比例(或部分)总是至少为1-1/z^2,其中z为大于1的任意正数。常数:z=2,z=3和z=5有如下结果:
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内
注意:切比雪夫大数定理为依据样本平均数估计总体平均数提供了理论依据,适用于任何数据集,无论数据的分布,随着样本容量n的增加,样本平均数将接近于总体平均数。并未要求同分布,相较于后面介绍的伯努利大数定律和辛钦大数定律更具一般性 ,更强的适用性。 -
伯努利大数定律
设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有公式二,该定律是切比雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此 [1] 。 -
辛钦大数定律
常用的大数定律,设 {ai,i>0}为独立同分布的随机变量序列,若ai 的数学期望存在,则服从大数定律,即对任意的ε>0,有公式三 [1] ,
-
公式 | 分布情况 | 期望 | 方差 | 总结 | |
---|---|---|---|---|---|
公式一: | ![]() | 相互独立或者不相关 | 存在 | 存在 | 估算期望 |
公式二: | ![]() | 二项分布 | 相同 | 相同 | 频率等于概率 |
公式三: | ![]() | 相互独立且同分布 | 相同 | 相同 | 估算期望 |
5.两变量线性关系的度量
- 关系
- 联合分布
F(X,Y)=Pr(X≤x,Y≤y)
在概率论中, 对两个随机变量X和Y,其联合分布是同时对于X和Y的概率分布。分布函数F(X,Y)在(x,y)处的函数值,是随机变量落在,以点(x,y)为顶点,该点左下方无穷矩形域内的概率。 - 独立分布
F(X,Y) = F(X)*F(Y)
及边缘分布函数,简化为:满足公式的分布
p(A|B)=p(A) p(B|A)=p(B) p(AB)=p(A)(B) - 相关性和 和独立性的区别,
独立性是不相关性的充分不必要条件,“不相关”是一个比“独立”要弱的概念,范围更大,指非线性关系。x-y不是线性关系,但存在可能x^2 - y 是线性关系,x-y 不相关但是也不独立。而只要独立,一定不相关。
- 联合分布
协方差
-
协方差 Cov(X,Y)
协方差表示的是两个变量的总体的误差的期望。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:- 公式
- 公式
公式 | 表达式 | |
---|---|---|
样本协方差 | S x y = ∑ ( x i − x ‾ ) ( ( y i − y ‾ ) n − 1 S_x{_y} =\frac{\sum(x_i-\overline x)((y_i-\overline y)}{n-1} Sxy=n−1∑(xi−x)((yi−y) | 样本n |
总体协方差 | S x y = ∑ ( x i − μ x ) ( ( y i − μ y ) N S_x{_y} =\frac{\sum(x_i- \mu_x)((y_i-\mu_y)}{N} Sxy=N∑(xi−μx)((yi−μy) | 总样本 |
-
解释
正值 正相关 负值 负相关 零 无相关性 - 缺点(补救方式,采用相关系数。)
- 采用不同计量单位,结果差异明显
- 用数值衡量线性关系强度有偏差。
- 缺点(补救方式,采用相关系数。)
相关系数
-
相关系数
又称为皮尔逊积矩相关系数。相关系数定量地刻画了 X 和 Y的相关关系,而非因果,范围(-1,1),关系越弱越接近0- 公式
公式 | 表达式 | |
---|---|---|
样本相关系数 | r x y = s x y s x s y r_x{_y} =\frac{s_x{_y}}{s_xs_y} rxy=sxsysxy | 样本相关系数是对总体相关系数的点估计。 |
总体相关系数。 | ρ x y = σ x y σ x s y \rho_x{_y} =\frac{\sigma_x{_y}}{\sigma_xs_y} ρxy=σxsyσxy | 将样本统计量全部替换为总体参数即可。 |
( s x y s_x{_y} sxy为X与Y的协方差 、 s x s_x sx为X的方差、 s y s_y sy为Y的方差)
- 复相关系数
又叫多重相关系数。复相关是指因变量与多个自变量之间的相关关系。例如,某种商品的季节性需求量与其价格水平、职工收入水平等现象之间呈现复相关关系。 - 典型相关系数
是先对原来各组变量进行主成分分析,得到新的线性关系的综合指标,再通过综合指标之间的线性相关系数来研究原各组变量间相关关系。
6.探索性数据分析
箱型图
- 箱型图
- 基于“五数”
最小值、第一四分位数(Q1)、中位数(Q2)、第三四分位数(Q3)、最大值 - 步骤
- Q1,Q2,Q3
- 触须线 延伸至最大最小值
确定上下限:Lower Limit = Q 1 Q_1 Q1-1.5( IQR),Upper Limit = Q 3 Q_3 Q3 +1.5 ( IQR) - 异常值
上下限之外的值
- 基于“五数”
3.概率
1.概率基础
- 基本概念
- 随机现象
偶然性、并不总是出现相同结果。投掷一颗骰子出现的次数 - 随机事件
随机现象的某些基本结果组成的集合。{1,2,3,4,5,6}
随机事件在一次试验中发生与否是不确定的多次试验时含有规律性 - 试验
在相同条件下进行大量的重复试验- 具有三个特征: 1.单个结果无法确定,全部的结果可以确定 2.过程可重复
- 概率
用数据度量某件事发生的可能性的大小, P ( A ) = n A N P(A)=\frac{n_A}{N} P(A)=NnA, n A n_A nA:A发生的次数,N:实验次数 - 样本空间
所有可能结果组成的一个集合。 - 样本点
任何一个特定的实验结果或者样本空间的一个元素。
- 随机现象
排列组合
- 计数法则
-
多步骤试验
- 计数法则:1.如果一个实验可以分成循环的k步骤2.第i步有ni实验结果3.那么所有可能的实验结果总称为 ( n 1 n_1 n1)( n 2 n_2 n2)( n 3 n_3 n3)(……)( n k n_k nk)
- 图形分析:树形图
-
组合
-
定义
从n项中不计次序取出m(m≤n,m与n均为自然数,下同)并成一组,叫做一个组合;所有组合的个数,叫组合数。用符号 C n m C_n^m Cnm表示。 -
计算公式
C n m = A n m m ! = n ! m ! ( n − m ) C_n^m=\frac{A^m_n}{m!}=\frac{n!}{m!(n-m)} Cnm=m!Anm=m!(n−m)n!
C ( n , m ) = C ( n , n − m ) C(n,m)=C(n,n-m) C(n,m)=C(n,n−m)
-
-
排列
- 定义
从n个不同元素中,任取m个按照一定的顺序排成一列,叫一个排列;所有排列的个数,叫排列数,符号 A n m A_n^m Anm - 计算公式
- 定义
-
概率分配
- 两个基本条件
0 ≤ P ( E i ) ≤ 1 0 \leq P(E_i)\leq1 0≤P(Ei)≤1 for all i
P ( E 1 ) + P ( E 2 ) + … + P ( E n ) = 1 P(E_1)+P(E_2)+\ldots+P(E_n)=1 P(E1)+P(E2)+…+P(En)=1
- 两个基本条件
-
常用方法
- 古典法 :所有试验结果发生的可能性相等 1/N
- 相对频数法:试验可以「大量重复」进行,能取得试验结果「发生比率」的数据
- 主观法
不符合上述两种方法的使用条件时使用,以主观判断为基础范围0-1之间。
计算:贝叶斯定理,结合「主观」确定的「先验概率」和「其他方法」得到的概率
-
2.事件及其概率
- 事件
样本点的一个集合。特例;样本空间是一个事件 - 事件的概率
事件中所有样本点的概率之和 - 概率的基本性质
- 补事件: P ( A ) = 1 − P ( A c ) P(A)=1-P(A^c) P(A)=1−P(Ac)
- 并事件:属于a或b或者同时属于
- 交事件:同时授予AB
- 加法公式
- 计算并事件的概率
- P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) ) P(A\cup B)=P(A)+P(B)-P(A\cap B)) P(A∪B)=P(A)+P(B)−P(A∩B))
- 独立事件 P ( A ∪ B ) = P ( A ) + P ( B ) ) P(A\cup B)=P(A)+P(B)) P(A∪B)=P(A)+P(B))
- 条件概率
- 在B发生的条件下A发生的概率。
- P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
- 联合概率和边际概率的比值
- 联合概率:两个事件都发生的概率
- 边际概率,每个事件各自发生的概率
- 乘法公式
P ( A ∩ B ) = P ( A ) P ( A ∣ B ) P(A\cap B)=P(A)P(A|B) P(A∩B)=P(A)P(A∣B)/ P ( A ∩ B ) = P ( B ) P ( B ∣ A ) P(A\cap B)=P(B)P(B|A) P(A∩B)=P(B)P(B∣A)- 独立事件: P ( A ∩ B ) = P ( A ) P ( B ) P(A\cap B)=P(A)P(B) P(A∩B)=P(A)P(B)
- 独立事件:P(A|B) = P(A) P(B|A)=P(B)
3.贝叶斯定理
-
定义
事件A在事件B(发生ki)的条件下的概率,与事件B在事件A的条件下的概率,这两者之间的关系.公式表示:在 B 发生的条件下 A 发生的条件概率,等于 A 事件发生条件下B 事件发生的条件概率乘以 A 事件的概率,再除以 B 事件发生的概率。- 已知:
- 每个 A事件的概率: P ( A 1 ) , P ( A 2 ) , P ( A 3 ) , P ( A 4 ) , … P(A_1),P(A_2),P(A_3),P(A_4),\ldots P(A1),P(A2),P(A3),P(A4),…
- 对应B发生的概率: P ( B ∣ A 1 ) , P ( B ∣ A 2 ) , P ( B ∣ A 3 ) , P ( B ∣ A 4 ) , … P(B|A_1),P(B|A_2),P(B|A_3),P(B|A_4),\ldots P(B∣A1),P(B∣A2),P(B∣A3),P(B∣A4),…
- 求:
- A事件的条件概率: P ( A 1 ∣ B ) 或 P ( A 2 ∣ B ) 或 P ( A 3 ∣ B ) … P(A_1|B)或P(A_2|B)或P(A_3|B)\ldots P(A1∣B)或P(A2∣B)或P(A3∣B)…
- 已知:
-
贝叶斯统计思想。
先 验 概 率 P ( A ) → 新 信 息 → 贝 叶 斯 定 理 → 后 验 概 率 P ( A ∣ B ) 先验概率P(A)\rightarrow新信息\rightarrow贝叶斯定理\rightarrow 后验概率 P(A|B) 先验概率P(A)→新信息→贝叶斯定理→后验概率P(A∣B) 修正决策思维:利用搜集到的信息对原有判断进行修正提供了有效手段:当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。- 先验概率P(A) :决策者通过经验来判断事情发生的概率,比如南方的梅雨季是 6-7 月,就是通过往年的气候总结出来的经验,这个时候下雨的概率就比其他时间高出很多。
- 后验概率P(A|B) :根据样本信息计算,条件概率的一种:发生结果之后,推测原因的概率比如说某人查出来了患有“贝叶死”,那么患病的原因可能是 A、B 或 C。患有“贝叶死”是因为原因 A 的概率就是后验概率。
- 似然函数(likelihood function):概率模型的训练过程理解为求参数估计的过程。似然函数就是用来衡量这个模型的参数。似然在这里就是可能性的意思,它是关于统计参数的函数 如果一个硬币在 10 次抛落中正面均朝上。那么你肯定在想,这个硬币是均匀的可能性是多少?这里硬币均匀就是个参数。
-
公式
P ( A i ∣ B ) = P ( B ∣ A j ) P ( A j ) ∑ j P ( B ∣ A j ) P ( A j ) P(A_i|B)=\frac{P(B|A_j)P(A_j)}{\sum _jP(B|A_j)P(A_j)} P(Ai∣B)=∑jP(B∣Aj)P(Aj)P(B∣Aj)P(Aj)
后验概率 = (似然度 * 先验概率)/标准化常量
也就是说,后验概率与先验概率和似然度的乘积成正比另外,比例 P ( B ∣ A ) P ( B ) \frac{P(B|A)}{P(B)} P(B)P(B∣A)也有时被称作标准似然度(standardised likelihood),Bayes法则可表述为:后验概率 = 标准似然度 * 先验概率。- P(A|B) 后验概率
B的前提下A的条件概率 - P(A) 先验概率
A的先验概率或边缘概率。 - P(B)
B的先验概率或边缘概率,也作标准化常量(normalized constant)。
- P(A|B) 后验概率
-
推理
P(A|B)=P(AB)/P(B)
P(AB)=P(A)P(B|A)=P(B)P(A|B)
P(A|B)=P(B|A)*P(A)/P(B)
假设A服从离散分布事件a所有的可能记A1,A2。
P(A1|B)+P(A2|B)……=1
两边同时乘以P(B)
P(B)=P(A1|B)P(B)+P(A2|B)P(B)……
P(B)=P(B|A1)P(A1)+P(B|A2)P(A2)……
转换为贝叶斯公式
P(A|B)=P(AB)/P(B)=P(B|A)*P(A)/P(B)
P ( A i ∣ B ) = P ( B ∣ A j ) P ( A j ) ∑ j P ( B ∣ A j ) P ( A j ) P(A_i|B)=\frac{P(B|A_j)P(A_j)}{\sum _jP(B|A_j)P(A_j)} P(Ai∣B)=∑jP(B∣Aj)P(Aj)P(B∣Aj)P(Aj) -
案例1.
一座别墅在过去的 20 年里一共发生过 2 次被盗,别墅的主人有一条狗,狗平均每周晚上叫 3 次,在盗贼入侵时狗叫的概率被估计为 0.9,问题是:在狗叫的时候发生入侵的概率是多少?
我们假设 A 事件为狗在晚上叫,B 为盗贼入侵,则以天为单位统计,
P(A) = 3/7
P(B) = 2/(20*365) = 2/7300
P(A|B) = 0.9
P(B|A) =P(AB)/P(A)=P(A|B)P(B)/P(A)= 0.9(2/7300) / (3/7) = 0.00058 -
案例2. 三门问题
思路:简化为在已知一只羊的情况下,选中车的概率 -
案例 3
假设有一种病叫做“贝叶死”,它的发病率是万分之一,即 10000 人中会有 1 个人得病。现有一种测试可以检验一个人是否得病的准确率是 99.9%,它的误报率是 0.1%,那么现在的问题是,如果一个人被查出来患有“叶贝死”,实际上患有的可能性有多大?
我们假设:A 表示事件 “测出为阳性”, 用 B1 表示“患有贝叶死”, B2 表示“没有患贝叶死”。根据上面那道题,我们可以得到下面的信息。患有贝叶死的情况下,测出为阳性的概率为 P(A|B1)=99.9%,没有患贝叶死,但测出为阳性的概率为 P(A|B2)=0.1%。另外患有贝叶死的概率为 P(B1)=0.01%,没有患贝叶死的概率 P(B2)=99.99%。
1.求标准化常量的各个部分 。
我们检测出来为阳性,而且是贝叶死的概率 P(B1,A)=P(B1)*P(A|B1)=0.01%*99.9%=0.00999%= 0.01%
这里 P(B1,A) 代表的是联合概率,同样我们可以求得检测出来为阳性,没有患贝叶死P(B2,A)=P(B2)*P(A|B2)=99.99%0.1%=0.09999%= 0.1%
2.带入公示
然后我们想求得是检查为阳性的情况下,患有贝叶死的概率,也即是 P(B1|A)。所以检查出阳性,且患有贝叶死的概率为:
P(B1|A)= P(A|B1) P(B1)/(P(B1)*P(A|B1)+P(B2)*P(A|B2))=0.01%/( 0.1%+0.01%)=9%
3.总结- 难点是能将问题转化为贝叶斯公式,如果不能理解,就按照公式展开求各个部分
- P(B1)、P(B2) 先验概率.知道了被检测出来是阳性,来求患贝叶死的概率,也就是求后验概率。
- 0.01%+0.1% 均出现在了 P(B1|A) 和 P(B2|A) 的计算中作为分母。我们把它称之为论据因子,也相当于一个权值因子。
4概率分布
1.基础
- 随机变量
依据:是否可数
区别于是有限。可数的含义是,随机变量是否能按照一定的次序列举。网站访问的用户数可以是无限,但依旧可以列举,为离散型随机变量。用户的转换率在0~1之间,但无法依次列举。
类型 | 定义 | 表达 |
---|---|---|
连续型随机变量 | 实验结果落在某个区间的概率,随机变量X小于等于x的概率,也称为累计分布函数(CDF) | F(x)=Pr(X≤x) |
离散型随机变量 | 实验结果为具体某值的概率 | Pr(X=x) |
- 概率分布
- 定义
描述随机变量不同取值的概率。 - 内涵
由概率函数或者概率密度函数来定义概率分布。 - 分类
- 离散概率分布
- 表达形式
概率函数、表格形式 - 概率分配
古典法、主观法、相对频率法 - 概率函数
离散型均匀分配: f(x)= 1/n
- 表达形式
- 连续概率分布
- 概率密度函数 :概率为在给定区间曲线f(x)下的面积,只讨论区间值。曲线f(x)面积=1
- 常见
正态分布、指数分布、幂律分布、均匀分布
- 离散概率分布
- 定义
- 基本特征
期望、方差
2.离散概率分布
- 基本特征
- 期望
E ( x ) = μ = ∑ x f ( x ) E(x)= \mu=\sum xf(x) E(x)=μ=∑xf(x) - 方差
V a r ( X ) = σ 2 = ∑ ( x − μ ) 2 f ( x ) Var(X)= \sigma^2=\sum(x-\mu)^2f(x) Var(X)=σ2=∑(x−μ)2f(x)
- 期望
伯努利分布
- 伯努利分布
也称01分部。每次试验,结果非1及0,1的概率为p。无随机变量,分布律:P(X =1)=p ,p(X=0)= 1-p;期望:p ;方差:p(1-p)。例如:优惠券是否使用,P(X=1)=p则为转化率
二项分布
- 二项分布
- 定义:N个独立重复的伯努利分布。n个概率为p的独立可重复试验,随机变量x表示n次试验中成功的次数。发放1000张优惠券,是否被使用可以看作n=1000,概率为P独立重复实验。从而得到有 K张优惠券被使的概率P
- 公式
P P P { X = k X=k X=k}= ( k n ) P k ( 1 − p ) n − k (^n_k)P^k(1-p)^{n-k} (kn)Pk(1−p)n−k
(其中 ( n r ) = n ! x ! ( n − x ! ) (^r_n)= \frac{n!}{x!(n-x!)} (nr)=x!(n−x!)n!) - 期望
np - 方差
n p ( 1 − p ) np(1-p) np(1−p)
- 几何分布
n个概率为p的独立可重复试验,直到第 n 次试验才第1次成功的概率分布- 公式
P P P { X = k X=k X=k}= ( 1 − p ) k − 1 (1-p)^{k-1} (1−p)k−1 - 期望
1/p - 方差
( 1 − p ) / p 2 (1-p)/p^2 (1−p)/p2
- 公式
泊松分布
- 泊松分布
- 定义
描述在单位时间内随机事件发生x次数的概率。事件在任意区间的期望和方差均为 λ \lambda λ,1小时内到达的汽车数为泊松分布,均值为10辆/小时, P ( X = k ) = 1 0 k k ! e − 10 P(X= k)=\frac{10^k}{k!}e^{-10} P(X=k)=k!10ke−10。 - 性质
任意两个相等长度的区间中,事件发生的概率相同。任意区间事件发生的保持独立。 - 公式
P ( X = k ) = λ k k ! e − λ P(X= k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ
- 定义
- 二元概率分布
两个随机变量,没对取值的概率。关注随机变量的关系。
超几何分布
- 超几何分布
- 定义:总体N有r个成功元素,不放回抽n次,恰好x次成功的概率。总量足够大时、近似于二项分布:次数n、成功率p = r/N
- 公式:
f ( x ) = ( n r ) ( n − x N − r ) ( n N ) f(x)= \frac{(^r_n)(^{N-r}_{n-x})}{(^N_n)} f(x)=(nN)(nr)(n−xN−r) (n:试验次数 x:成功次数 p:单次试验的成功概率, ( n r ) = n ! x ! ( n − x ! ) (^r_n)= \frac{n!}{x!(n-x!)} (nr)=x!(n−x!)n!) - 期望
E ( x ) = μ = n ( r N ) E(x)=\mu=n(\frac {r}{N}) E(x)=μ=n(Nr) - 方差
V a r ( x ) = σ 2 = n ( r N ) ( 1 − r N ) ( N − n N − 1 ) Var(x) =\sigma^2=n(\frac {r}{N})(1-\frac {r}{N})(\frac{N-n}{N-1}) Var(x)=σ2=n(Nr)(1−Nr)(N−1N−n)
- 公式:
- 负二项分布
所有成功r次即停止的实验中、失败次数k的分布
3. 连续概率分布
均匀概率分布
- 均匀概率分布
- 定义:理想的分布,概率与区间长度成正比,概率密度函数在结果区间内为固定的数值,
- 公式
f ( x ) = 1 b − a f(x)=\frac {1}{b-a} f(x)=b−a1 (a<x<b) - 图
- 期望: ( a + b ) 2 \frac{(a+b)}{2} 2(a+b)
- 方差: ( a + b ) 2 12 \frac{(a+b)^2}{12} 12(a+b)2
正态概率分布
- 正态概率分布
-
定义
常见的分布又称“常态分布”,又名高斯分布(Gaussian distribution)若随机变量X服从一个数学期望为μ、方差为 σ 2 σ^2 σ2的正态分布,记为N(μ,σ^2)。 -
特性:
其概率密度函数为正态分布,由曲线下方的面积构成,和为1;
期望值μ决定了其位置,位于曲线最高点,μ=中位数=众数,可以是任意值
其标准差σ决定了分布的幅度,σ越大曲线越宽越平坦。 -
公式
f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 μ 2 f(x)=\frac{1}{\sigma \sqrt 2\pi}e^{- \frac{(x-\mu)^2}{2\mu ^2}} f(x)=σ2π1e−2μ2(x−μ)2
( μ = m e a n \mu=mean μ=mean, σ = s t a n d a r d d e v i a t i o n \sigma= standard deviation σ=standarddeviation, e = 2.7183 e=2.7183 e=2.7183) -
图
-
期望
μ \mu μ -
方差
σ 2 \sigma^2 σ2 -
特例 -标准正态分布
当μ = 0,σ = 1时的正态分布,概率密度函数为 f ( x ) = 1 2 π e − ( x ) 2 2 f(x)=\frac{1}{ \sqrt 2\pi}e^{- \frac{(x)^2}{2}} f(x)=2π1e−2(x)2 -
正态分布表
1、通查找实数x的位置,从而得到p(z<=x)。
2、表的纵向代表x的整数部分和小数点后第一位,横向代表x的小数点后第二位,然后就找到了x的位置。比如这个例子,纵向找2.0,横向找0,就找到了2.00的位置,查出0.9772。 -
经验法则
或称为“68-95-99.7法则”在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则:
- 约68.3%数值分布在距离平均值有1个标准差之内的范围,
- 约95.4%数值分布在距离平均值有2个标准差之内的范围,
- 约99.7%数值分布在距离平均值有3个标准差之内的范围。
- 落在三个标准差之外的概率只有.0.27%.这个部分误差将不再属于随机误差而属于粗大误差
-
计算
转化为标正态分布 z = x − μ σ z =\frac{x-\mu}{\sigma} z=σx−μ -
举例:
例一:z服从n(0,1),求p(|z|≥2)。
由于z已经服从标准正态分布n(0,1),那么z’=z,不必转化了。
p(|z|≥2)=p(z≥2)+p(z<=-2)
=2p(z≥2)
=2(1-p(z<=2))
查表可知,p(z<=2)=0.9772,所以p(|z|≥2)=0.0456。
例二:z服从n(5,9),求p(z≥11)+p(z<=-1)。
令z’=(z-5)/3,z’服从n(0,1)
做转化p(z≥11)+p(z<=-1)=p(|z-5|≥6)
=p(|z’|≥2)
-
指数概率分布
- 指数概率分布
- 定义:连续两个事件发生的时间间隔服从指数分布,例如两辆汽车达到的时间0.1小时/辆, f ( X ) = 1 0.1 e − x 1 0.1 f(X)=\frac{1}{0.1}e^{-x\frac{1}{0.1}} f(X)=0.11e−x0.11
- 公式
- 概率密度函数
f ( X ) = λ e − λ x f(X)=\lambda e^{-\lambda x} f(X)=λe−λx (x大于0, λ = 1 / μ \lambda =1/\mu λ=1/μ) - 概率计算累积分布函数
F ( x ; λ ) = 1 − e − λ x F(x;\lambda)=1-e {-\lambda x} F(x;λ)=1−e−λx (x ≥ \geq ≥ 0)
- 概率密度函数
- 图
- 期望
1 λ \frac{1}{\lambda} λ1 - 方差
1 λ 2 \frac{1}{\lambda^2} λ21 - 特性
均值=标准差、右偏
- 幂律分布
4. 重要汇总
- 离散
- 二项分布: n次独立试验中 x次「成功」的概率
- 泊松分布 :特定时间段或空间中 事件发生x次的概率
- 超几何分布 :n次相互关联试验中 X次「成功」的概率
- 连续
- 均匀概率分布 :随机变量 取值概率相同在「等长度的区间」上
- 正态概率分布 :钟形概率密度函数 由均值μ和标准差σ确定
- 指数概率分布 :用于计算 完成一项任务所需时间的概率
5抽样分布
1. 基础知识
- 基础概念
- 抽样估计 :利用样本指标估计总体指标
- 总体:根据研究业务逻辑和研究需要确定 的对象全体
- 有\无限总体:
在无放回抽样时,对于有限总体与无限总体其统计量的分布是不同的。在无限总体的情况下,每次抽取一个样本并不影响下一次的抽取,因此可以看作是独立的。而对于有限总体每一次抽选的结果将影响到下一次的抽选结果。 - 总体参数:总体的数据特征: 平均数、比重结构
- 样本: 随机从总体中抽取 的部分个体。特别澄清一点的是把样本想象成固定的会限制我们的思考。总体和样本的关系是一对多的
- 样本指标(统计量):样本特征(平均数、方差)用来估计总体参数
- 样本容量 个体的数目
- 样本个数 总体中抽样的次数
- 点估计(point estimation):用样本统计量来估计总体参数
- 点估计量:样本统计量
- 点估计值:点估计量的值
- 无偏估计量:数学期望等于被估计的量的统计估计量称为无偏估计量。
- 无偏性:估计量的均值(数学期望)应等于未知参数的真值。
- 统计推断
利用样本信息对总体性质建立估计 检验假设 - 抽样方法
单随机抽样
分层随机抽样,每一层内方差相对小
整群抽样
系统抽样,通常假定具有简单随机抽样的性质
方便抽样,非概率抽样
判断抽样,非概率抽样 - 拟合度
抽样结果与总体特征的接近程度 - 抽样分布
是指样本估计量的分布,「随机变量」的「概率分布」 - 抽样误差
无偏估计量的值与对应总体参数之差的绝对值
利用样本统计量的抽样分布,能对抽样误差进行概率描述 - 标准误差
样本的标准差 - 有限总体修正系数
无放回抽样时:在通常的情况下有限总体统计量的方差小于无限总体抽样时的方差,需要乘上—个系数1-n/N,称为有限总体的修正系数,简写为fpc。
由于n<N,因此1-n/N总是小于1,若抽样的比例很小,即n/N小于0.05时,有限总体修正系数就可以忽略不计 [1] 。
2.抽样
- 样本
- 简单随机采样
- 定义:从容量为N的有限总体中,以相同概率抽取n个作为一个样本。常见无返回抽样,也有放回抽样
- 随机采样
- 定义:从无限的总体中,独立抽取n个样本
- 简单随机采样
点估计
- 点估计
-定义:推断统计的一种, 用样本统计量来估计总体参数,样本统计量就是总体参数的点估计。- 良好点估计量的特征
- 无偏性 :样本统计量的期望等于总体的参数
- 一致性 :当样本容量增大,点估计值接近总体参数, 估计效果越好
- 有效性 :标准差越小,估计量更有效,统计量的抽样分布小
- 良好点估计量的特征
中心极限定理
- 中心极限定理
- 定义
简单随机采样从整体中抽取容量为n的样本,当样本足够大(大于30)时,样本平均值的分布趋于正态分布,方差随着实验次数增加而减小。 - 适用
任何总体。一种量足够大的样本,无论服从什么分布,最终都能转化为正态分布。当样本严重偏态时可以扩大样本 - 价值:
- 为数理统计学和误差分析提供了理论基础,指出了大量随机变量近似服从正态分布的条件。这种方法在数理统计中用得很普遍,当处理大样本时,它是重要工具。
- 在实际工作中有广泛的实际应用背景。只要n足够大,便可以把独立同分布的随机变量之和当作正态变量。例如:AB-TEST
- 在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
- 定义
3.抽样分布
- 定义
样本统计量的所有可能值构成的概率分布 - 内涵
重复抽样过程n次,得到的样本统计量的概率分布。用于样本统计量和总体参数进行概率描述 - 注意
?已知总体均值及方差 - 样本均值的抽样分布
- 定义 :样本均值的可能值的概率分布
- 期望
E ( x ‾ ) = μ E(\overline {x})=\mu E(x)=μ,无偏估计量 - 标准差
均值的误差标准,点估计量(样本均值)的标准差,用于确定样本均值和总体均值的偏离程度- 有限总体
-
一般情况,考虑修正系数
σ x ‾ = N − n N − 1 ( σ n ) \sigma_{\overline{x}} =\sqrt{\frac {N-n}{N-1}}\bigg(\frac{\sigma}{\sqrt n}\bigg) σx=N−1N−n(nσ) -
总体量大, n / N ≤ 0.05 n/N\le 0.05 n/N≤0.05,实际情况总是假定总体容量较大
σ x ‾ = σ n \sigma_{\overline{x}} =\frac{\sigma}{\sqrt n} σx=nσ
-
- 无限总体
- σ x ‾ = σ n \sigma_{\overline{x}} =\frac{\sigma}{\sqrt n} σx=nσ
- 有限总体
- 抽样分布形式
- 总体样本服从正态分布,则任何容量都符合正态分布
- 总体样本不服从正态分布则应用中心极限定理,样本容量很大时,金丝服从正态分布
- 样本比例的抽样分布
- 定义:样本比例抽样分布(sampling distribution of ratio)是从总体中重复随机抽取容量为n的所有样本,其样本比例的概率分布。比例是一个常用统计指标,如产品合格率、某群体学生考试成绩及格率、社会适龄人员就业率等。随样本容量的增加,样本比例抽样分布趋近于正态分布。
- E ( P ‾ ) = p E(\overline P)=p E(P)=p 总体中具有某一特征单位数占总体全部单位数的比例称为总体比率,用P表示;样本中具有某一特征的单位数占样本全部单位数的比例称为样本比例,用p表示。
- 标准差
比例的标准误差,点估计量(样本比例)的标准差,用于确定样本比例和总体均值的接近程度- 有限总体
-
一般情况,考虑修正系数
σ p ‾ = N − n N − 1 p ( 1 − p ) n \sigma_{\overline{p}} =\sqrt{\frac {N-n}{N-1}}\sqrt{\frac{p(1-p)}{ n}} σp=N−1N−nnp(1−p) -
总体量大, n / N ≤ 0.05 n/N\le 0.05 n/N≤0.05,实际情况总是假定总体容量较大
σ p ‾ = p ( 1 − p ) n \sigma_{\overline{p}} =\sqrt{\frac{p(1-p)}{ n}} σp=np(1−p)
-
- 无限总体
- σ p ‾ = p ( 1 − p ) n \sigma_{\overline{p}} =\sqrt{\frac{p(1-p)}{ n}} σp=np(1−p)
- 抽样分布形式
离散概率分布。样本中具有被关注特征的个体数目x 服从二项分布,n为常数,故x/n也服从二项分布。近似正态分布的判断条件: n p ′ np\rq np′
- 有限总体
6区间估计
总结
- 一个总体参数的区间估计
2.两个总体参数的区间估计
1.基础
置信区间估计
-
区间估计(interval estimate)
一种总体参数的估计方法,在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到。 -
与点估计不同
能提供估计精确的信息,估计值与总体参数的接近程度,更适用。进行区间估计时,根据样本统计量的抽样分布可以对样本统计量与总体参数的接近程度给出一个概率度量 -
构建
点估计值 ± \pm ±边际误差- 边际误差
抽样误差的上下限,等于临界值乘以统计量的分布标准差
案例:
总体平均值的区间估计: x ‾ ± \overline x\pm x± Margin of error
总体比例的区间估计: p ‾ ± \overline p\pm p± Margin of error
- 边际误差
-
置信区间
指由样本统计量所构造的总体参数的估计区间(误差范围). 设置范围的目的是为了满足某一置信水平。置信区间越大,置信水平越高。-
置信度
指构造总体参数的多个样本区间中,包含总体参数的区间占总区间数的概率,一般用1-α表示;可以理解为:特定个体对待特定命题真实性相信的程度。α成为显著性水平,通常取值0.025、0.05、0.1,对应0.975、0.95、0.9
解释:
1.用中括号[a,b]表示样本估计总体平均值的误差范围的区间[a,b]被称为置信区间。“a和b之间包含总体平均值”的概率,这个概率就是置信水平。
2.95%的置信水平 ,适用区间估计法得到的全部
[a,b]区间中,如果有95%的区间包含总体参数 -
置信区间的宽度
计算公式为:b-a,较窄的置信区间比较宽的置信区间能提供更多的有关总体参数的信息
估计全班均值:区间 间隔 宽窄度 表达的意思 100分 100 宽 等于什么也没告诉你 30-80分 50 较窄 你能估出大概的平均分了(55分) 60-70分 10 窄 你几乎能判定全班的平均分了(65分) -
计算:
- 样本数据,其容量n,平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为
μ ± Z α / 2 σ x ‾ \mu\pm Z_{\alpha/2}\sigma_{\overline x} μ±Zα/2σx (α为非置信水平在正态分布内的覆盖面积 , Z α / 2 Z_{\alpha/2} Zα/2即为对应的标准分数, σ x ‾ = σ n \sigma_{\overline x}=\frac{\sigma}{\sqrt n} σx=nσ)
- 样本数据,其容量n,平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为
-
当置信度为0.95,对应σ/2=0.025,即需要查1-0.025=0.975对应的Z值为1.96,对应正态分布表
-
影响因素
从公式可以看出置信水平、样本量等因素均有关系,其中:- 样本量:在置信水平固定的情况下,样本量越多,置信区间越窄。
- 置信水平,在样本量相同的情况下,置信水平越高,置信区间越宽。
-
-
常用置信水平
90% 、95%,99%,为了简化运算通常取对应的z值为:1,2,3 -
想要达到较高的置信水平
- 增大边际误差
- 增大置信区间的宽度
2.总体均值
- 总体标准差
- 已知
采用置信系数 , μ ± Z α / 2 σ n \mu\pm Z_{\alpha/2}\frac{\sigma}{\sqrt n} μ±Zα/2nσ - 未知:t分布 μ ± t α / 2 σ n \mu\pm t_{\alpha/2}\frac{\sigma}{\sqrt n} μ±tα/2nσ
- 已知
- 如何确定样本容量
根据 E = μ ± z α / 2 σ n E= \mu\pm z_{\alpha/2}\frac{\sigma}{\sqrt n} E=μ±zα/2nσ 倒推:
n = ( Z α / 2 ) σ 2 E 2 n=\frac{(Z_{\alpha/2})\sigma^2}{E^2} n=E2(Zα/2)σ2
步骤:- 确定可以接受的边际误差E
- 给定置信度α
- 根据公式计算n
- 影响区间估计质量的因素
- 总体分布
- 当分布是正态分布时,无论样本量,均为精确估计。为非正态分布时,均为近似估计(与正态分布),考虑样本量
- 样本量
- 大于30 ,按照中心极限定理可以将一般的抽样分布的样本看为正态分布。对于偏度大或者有异常的数据可以增加样本量至50以上
- 小于30,如果总体分布为正态则可按照正态处理。小于30 ,增加样本再应用中心极限定理
- 样本
- 容量越大、越近似程度越大越好
- 总体分布
t 分布
- 定义
t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。
- 特点
- 前提假设 抽样总体呈正态分布,或者样本容量足够大
- 均值为0 ,一系列类似的分布,单峰分布
- 与n(确切地说与自由度df)大小有关
- 一个自由度,对应唯一t分布
- 自由度越大变异程度越小,越接近标准正态分布,自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;当自由度df=∞时,t分布曲线为标准正态分布曲线。
- 类似标准正态表 可以查t值
- 公式
μ ± t α / 2 σ n \mu\pm t_{\alpha/2}\frac{\sigma}{\sqrt n} μ±tα/2nσ ( s = ∑ ( x i − x ‾ ) 2 n − 1 s=\sqrt{\frac{\sum(x_i-\overline x)^2}{n-1}} s=n−1∑(xi−x)2,n-1 :自由度,1-σ:置信度)
3.总体比率
- 总体比例是指总体中具有某一相同标志表现的全部总体单位数的比重
- 公式: p ‾ ± z α / 2 p ‾ ( 1 − p ‾ ) n \overline p \pm z_{\alpha/2}\sqrt\frac{\overline p (1-\overline p )}{ n} p±zα/2np(1−p)
- 案例:某城市想要估计下岗职工中女性所占的比例,随机抽取了100个下岗职工,其中65人为女职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间
- 如何确定样本容量
根据 p ‾ ± z α / 2 p ‾ ( 1 − p ‾ ) n \overline p \pm z_{\alpha/2}\sqrt\frac{\overline p (1-\overline p )}{ n} p±zα/2np(1−p) 倒推:
n = ( Z α / 2 ) p ‾ ∗ ( 1 − p ‾ ∗ ) E 2 n=\frac{(Z_{\alpha/2})\overline p^* (1-\overline p^* )}{E^2} n=E2(Zα/2)p∗(1−p∗),
4.汇总:
- 一个总体参数估计的不同情形及使用的分布
- 样本应用建议
- 总体正态 ,任意样本容量,可以n ≤ 15 \leq15 ≤15
- 一般情况,n ≥ 30 \geq30 ≥30
- 存在异常,严重倾斜,n ≥ 50 \geq50 ≥50
- 非正态但对称分布,n ≥ 15 \geq15 ≥15
7假设检验
- 假设
推论统计中用于检验统计假设的一种方式,判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。 - 假设检验基本原理
依据小概率原理,先假设总体参数的某项取值为真,然后通过抽样研究的统计推理抽取一个样本进行观察,如果样本信息显示出现了与事先假设相反的结果且与原假设差别很大,则说明原来假定的小概率事件在一次实验中发生了,这是一个违背小概率原理的不合理现象,因此有理由怀疑和拒绝原假设;否则不能拒绝原假设。- 小概率原理
发生概率很小的随机事件(小概率事件)在一次实验中几乎是不可能发生的。
- 小概率原理
1.建立假设
- 拒绝域
拒绝域亦称否定域,又称临界域,指在假设检验中,能够拒绝原假设的检验统计量的所有可能取值的取值范围,称为拒绝域。
就是显著性水平α所围成的区域。假设检验中根据检验统计量的分布,由给定的小概率α(0<α<1)作为显著性水平所确定的拒绝原假设H0的区间称为拒绝域,即统计量在其中取值的概率为α的区域。 - 接受域
不能够拒绝原假设的检验统计量的所有可能取值的集合称为接受域; - 临界值
根据给定的显著性水平确定的拒绝域的边界值,称为临界值 - 原假设
H0,零假设,尝试性的假定为真的假设
H0:支持骑自行车出入是应该下车的人不足10% - 备假设
H1,实际需要证明的,与原假设完全对立,如果原假设被拒绝,则被认为是真的假设。
H1:支持骑自行车出入是应该下车的人足10% - 如何选择
- 一般将检验「试图建立」的结果设为「备择假设」
- 案例
- 研究中的假设
设为H1备择假设,如果原假设被拒绝,则研究中的假设为真 ,结论从统计上,支持研究者。 - 受到挑战的假说
设为H0原假设,如果原假设被拒绝,该假说不正确。结论从统计上,反对假说 - 决策支持中的检验
不一定,前面两种情况都存在,如Ho被拒绝,将采取措施。决策时两种情况「都要」采取措施
- 研究中的假设
- 形式
等号总在原假设中- 单侧检验
- 下侧检验
H 0 : μ ≥ μ 0 H_0:\mu \geq \mu_0 H0:μ≥μ0
H 1 : μ < μ 0 H_1:\mu <\mu_0 H1:μ<μ0 - 上侧检验
H 0 : μ ≤ μ 0 H_0:\mu \leq \mu_0 H0:μ≤μ0
H 1 : μ > μ 0 H_1:\mu >\mu_0 H1:μ>μ0
- 下侧检验
- 双侧检验
H 0 : μ = μ 0 H_0:\mu =\mu_0 H0:μ=μ0
H 1 : μ ≠ μ 0 H_1:\mu \neq\mu_0 H1:μ=μ0
- 单侧检验
2.两类错误
-
原因:假设检验建立在「样本信息」的基础上,有误差
- 预测为正例 预测为负例 实际为正例 TP:True Positive。 FN:False Negative 实际为负例 FP:False Positive TN:True Negative - 正例反例
是一个相对概念。正想里通常我是我们所关注的结果。 - 精确率precision,TP/(TP+FP)
预测为正例的正确率。实际问题中更关注准确率,样本的正负例分布并不均匀。 - 召回率recall,TP/(TP+FN)
实际为正例的正确率 - 正确率,(TP+TN)/(TP+FP+FP+TN)
判断的总正确率
- 正例反例
-
两类错误
在样本容量(n)不变的前提下,两者不能同时变小,减小α必然导致β增大;反之,减小β必然导致α增大,两者呈反向变动关系,图1
- 第一类错误
- 定义:FN,拒绝了H0但H0(原假设)为真,假阳性(阳性代表有,假阳性代表假有效)。药品是否安全:第一类错误,准许了不安全的药品投入使用
- 显著性水平
- 定义:当原假设为真成立时,犯第一类错误的概率。每一个样本都会计算出一个样本均数,每一个样本均数其实都是X轴上的一个点,有的样本均数离总体均数近,而有的离总体均数远。当我们抽中的样本计算出来的样本均数离总体均数远的时候,即两者差异较大时,我们就会倾向拒绝两者相等的假设。所以,即便实际上H0假设正确,数轴上依然会有一些点与总体均数的距离较远,当这些点对应的样本被我们抽中时,我们就会做出拒绝H0的决定,从而我们就会犯错了,这便是第一类错误的发生逻辑。
- 设定
发生第一类错误的概率最大允许值。由进行假设检验的人设定 - 表示
α ,一般为0.05或0.01。例如:在实验研究中的,假设H0通常为因素间无关中,当α 越小,实验差异越显著,意味着拒绝H0的错误很小,可以拒绝H0,则H1成立。
- 显著性检验
只控制第一类错误的假设检验
- 第二类错误
- 定义:FP,接受了H0但H0为假,假阴性(假无效)。药品是否安全:第二类错误,拒绝了安全的药品投入使用
- 设定
通过预先设定显著性水平和检验效能可以计算出实验所需要的最小样本量。这也是ab test的基础。 - 表示
β。α固定的情况下,需要增大样本容减少𝛃发生的概率。犯第二类错误,那么意味着H0(总体平均身高为1.8m)是假的,实际上可能是1.85m。这其中会出现一个比较绕的点是,由于H0和事实不一致,所以H0所代表的总体和实际研究的总体也不一样。当我们计算犯错概率时,用的是第二个实际总体,即我们这个样本并不是来自第一个总体,而是来自第二个实际的总体,
- 第一类错误
2.一般步骤
- 建立 H 0 H_0 H0与 H 1 H_1 H1
- 制定显著性水平 α
若第一类错误的成本很高,设置较小值,不高则设置较大值 - 根据样本数据计算检验统计量
- 选择拒绝法则
- p—value
如果p—value 小于等于α,拒绝 H 0 H_0 H0 - 临界值法
利用α确定临界值,比较检验统计量和临界值,确定是否拒绝 H 0 H_0 H0
- p—value
检验统计量的确定
3.均值第二类错误概率计算
- 步骤
- 建立原假设和备择假
- 在显著性水平α下,确定「临界值」,建立「拒绝规则」,计算 Z Z Z
- 求解与「临界值」对应的「样本均值」 x ‾ \overline x x 根据 Z = x ‾ − μ 0 σ / n Z=\frac{\overline x-\mu_0}{\sigma/\sqrt n} Z=σ/nx−μ0, E = μ ± z α / 2 σ n E= \mu\pm z_{\alpha/2}\frac{\sigma}{\sqrt n} E=μ±zα/2nσ
- 得到:接受H0时对应的「样本均值」的值,构成接受域
- 对于满足「备择假设」的μ值,计算μ落在「接受域」的概率z,根据 Z = x ‾ − μ 0 σ / n Z=\frac{\overline x-\mu_0}{\sigma/\sqrt n} Z=σ/nx−μ0,根据Z,计算得到概率β
- 作用
- 当H0为假时,拒绝H0的概率,即1-β。
- 案例
解读:
- 求两类错误的概率 就是求放入正态中求 α \alpha α 和 β \beta β
- 求第一类错误,落在H0拒绝域内,使用题目中的拒绝域是相对于原假设的,所以求在H0中大于2.6的概率。简化为放入H0的正态的中求2.6边际后的面积
- 求第二类错误,落在H0的接受域H1的拒绝域中,由于H0所代表的总体和实际研究的总体也不一样,计算犯错概率时,用的是(H1)实际总体,所以求在H1中小于2.6的概率。简化为放入H0的正态的中求面积,2.6之前后的面积
- 后面的转化其实只计算后半部分, Z β / 2 = x ‾ − μ 0 σ / n Z_{\beta/2}=\frac{\overline x-\mu_0}{\sigma/\sqrt n} Zβ/2=σ/nx−μ0化为正态计算, Φ \Phi Φ用老表示 Z β / 2 逆 运 算 Z_{\beta/2}逆运算 Zβ/2逆运算,
4.总体均值假设检验
总体均值假设检验结合区间估计中总体均值的计算:大样本数据可以直接选用Z统计量,小样本按照总体标准差是否已知分为两种情况。计算的公式可以由区间估计倒推。
- 分类
- 总体
σ
\sigma
σ未知
- 检验统计量 t t = x ‾ − μ 0 s / n t=\frac{\overline x - \mu_0}{s/\sqrt n} t=s/nx−μ0
- 案例:某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂作为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。
- 总体
σ
\sigma
σ已知
- 检验统计量 z z = x ‾ − μ 0 s / n z=\frac{\overline x - \mu_0}{s/\sqrt n} z=s/nx−μ0
- 双侧检验
- 形式: H 0 : μ = μ 0 , H 1 : μ ≠ 1 μ 0 H_0:\mu=\mu_0,H_1:\mu\ne1\mu_0 H0:μ=μ0,H1:μ=1μ0
- 拒绝法则
- 临界值法则
计算Z, ∣ Z ∣ ≥ Z α / 2 |Z|\geq Z_{\alpha/2} ∣Z∣≥Zα/2任意一个成立即可拒绝原假设 - P-value
定义:如果原假设成立,出现样本观察结果或者更极端值出现的概率。实际就是依据Z,进一步计算α 。如果值小于α,拒绝原假设。
P经验解读:强有力的证据<0.01、有力证据0.01-0.05、弱证据0.05-0.10、>0.10没有足够的证据
计算:带入公式: Z = x ‾ − μ 0 σ / n Z=\frac{\overline x-\mu_0}{\sigma/\sqrt n} Z=σ/nx−μ0检验统计量的值Z,P-value=面积(1-ϕ(Z))*2.(*2是因为Z实际是 Z α / 2 Z_{\alpha/2} Zα/2)
- 临界值法则
- 单侧检验
实际中的问题带有方向性,1.越大越好:寿命 2.越小越好,成本- 形式
H 0 : μ ≤ μ 0 , H 1 : μ > μ 0 H_0:\mu\leq \mu_0,H_1:\mu>\mu_0 H0:μ≤μ0,H1:μ>μ0; H 0 : μ ≥ μ 0 , H 1 : μ < μ 0 H_0:\mu\geq \mu_0,H_1:\mu<\mu_0 H0:μ≥μ0,H1:μ<μ0, - 拒绝法则
- P-value
定义:如果p值小于α/2,拒绝原假设。
计算:带入公式: Z = x ‾ − μ 0 σ / n Z=\frac{\overline x-\mu_0}{\sigma/\sqrt n} Z=σ/nx−μ0检验统计量的值Z,P-value=面积 1-Z - 临界值法则
计算Z,右检验 Z ≥ Z α / 2 Z\geq Z_{\alpha/2} Z≥Zα/2或者左检验 Z ≤ − Z α / 2 Z\leq -Z_{\alpha/2} Z≤−Zα/2
- P-value
- 形式
- 总体
σ
\sigma
σ未知
- 检验结果质量影响因素
与6.2同 :影响区间估计质量的因素,案例《统计学8章8.6》 - 如何确定样本容量
1.前提:同时控制一类和第二类错误
2.1 单侧检验: n = ( Z α + Z β ) 2 σ 2 ( μ 0 − μ a ) 2 n=\frac{(Z_\alpha+Z_\beta)^2\sigma^2}{(\mu_0-\mu_a)^2} n=(μ0−μa)2(Zα+Zβ)2σ2
2.2双侧检验
Z α / 2 Z_{\alpha/2} Zα/2替换 Z α Z_\alpha Zα
3. α β n \alpha\beta n αβn已知两个可以计算第三个
5.总体比率
- 形式
- 双侧: H 0 : p = p 0 , H 1 : p ≠ p 0 H_0:p=p_0,H_1:p\neq p_0 H0:p=p0,H1:p=p0
- 单侧:
H 0 : p ≤ p 0 , H 1 : p > p 0 H_0:p\leq p_0,H_1:p>p_0 H0:p≤p0,H1:p>p0; H 0 : p ≥ p 0 , H 1 : p < p 0 H_0:p\geq p_0,H_1:p<p_0 H0:p≥p0,H1:p<p0,
- 前提
- 只讨论大样本情况, n ( 1 − p ) ≥ 5 n(1-p)\geq 5 n(1−p)≥5或 n p ≥ 5 np\geq5 np≥5,此时比例p的抽样,分布可以用正态分布近似
- 检验统计量计算:
z = p ‾ − p 0 p 0 ( 1 − p 0 ) n z=\frac{\overline p-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} z=np0(1−p0)p−p0,来源于: p ‾ ± z α / 2 p ‾ ( 1 − p ‾ ) n \overline p \pm z_{\alpha/2}\sqrt\frac{\overline p (1-\overline p )}{ n} p±zα/2np(1−p), p ‾ 0 为 总 体 比 例 P 的 假 设 值 \overline p_0为总体比例P的假设值 p0为总体比例P的假设值
- 案例:
一项统计结果声称,某市老年人口(年龄在65岁以上)所占的比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比例为14.7%的看法(a=0.05)?
- 高阶
-
p
‾
\overline p
p的精确分布抽样,
- 本质是离散分布,样本量足够大时,可二项分布可以转化为正态分布近似求解。由二项分布给出 p ‾ \overline p p的每个取值概率
- 小样本
- 不能采用正态近似则改用精确统计分布,实际中很少出现总体比例的小样本检测,有关比例的问题往往需要大样本量来保证结果的稳定性。
-
p
‾
\overline p
p的精确分布抽样,
8 两总体均值之差和比例之差的推断
对于两个总体,所关心的参数主要有两个总体的均值 之差 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2、两个总体的比例之差, p 1 − p 2 p_1-p_2 p1−p2、两个总体的方差比 σ 1 2 / σ 2 2 \sigma^2_1/\sigma^2_2 σ12/σ22等
均值样本之差 - 独立样本
- 独立样本( independent sample)
如果两个样本是从两个总体中独立抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称为独立样本。如果两个总体都为正态分布,或两 - 前提
两个总体都服从正态分布或者样本量足够大。
两个样本 x ‾ 1 a n d x ‾ 2 \overline x_1and \overline x_2 x1andx2近似服从正态分布, x ‾ 1 − x ‾ 2 \overline x_1- \overline x_2 x1−x2服从 μ ‾ 1 − μ ‾ 2 \overline \mu_1- \overline \mu_2 μ1−μ2的正态分布,方差: σ x ‾ 1 − x ‾ 2 = σ 1 2 n 1 + σ 2 2 n 2 \sigma_{\overline x_1- \overline x_2}=\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}} σx1−x2=n1σ12+n2σ22,即:
z = ( x ‾ 1 − x ‾ 2 ) − ( μ ‾ 1 − μ ‾ 2 ) σ 1 2 n 1 + σ 2 2 n 2 服 从 N ( 0 , 1 ) z=\frac{(\overline x_1- \overline x_2)-(\overline \mu_1- \overline \mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} 服从N(0,1) z=n1σ12+n2σ22(x1−x2)−(μ1−μ2)服从N(0,1) - 汇总
- 两个总体参数估计的不同情形及使用的分布
- 样本量
发样本 n 1 & n 2 ≥ 30 n_1\&n_2\geq30 n1&n2≥30,抽样分布分近似正态,如果样本量小于30必须满足正态分布。 - 两个正态总体参数的检验
- 两个总体参数估计的不同情形及使用的分布
-
已知 σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2,基于Z分布
- 区间估计
( x ‾ 1 − x ‾ 2 ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 (\overline x_1- \overline x_2)\pm z_{\alpha/2}\sqrt{{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}} (x1−x2)±zα/2n1σ12+n2σ22
(当总体的方差 σ 1 2 , σ 2 2 \sigma^2_1,\sigma^2_2 σ12,σ22未知时用样本方差代替: ( x ‾ 1 − x ‾ 2 ) ± z α / 2 s 1 2 n 1 + s 2 2 n 2 (\overline x_1- \overline x_2)\pm z_{\alpha/2}\sqrt{{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} (x1−x2)±zα/2n1s12+n2s22 )- 案例:
即8±2.97=(5.03,10.97),两所中学高考英语平均分数之差的95%的置信区间为5.03~10.97分
- 案例:
- 假设检验
- 形式 : H 0 : μ 1 − μ 2 ≥ D 0 , : μ 1 − μ 2 < D 0 H_0:\mu_1-\mu_2\geq D_0,:\mu_1-\mu_2< D_0 H0:μ1−μ2≥D0,:μ1−μ2<D0; H 0 : μ 1 − μ 2 ≤ D 0 , : μ 1 − μ 2 > D 0 H_0:\mu_1-\mu_2\leq D_0,:\mu_1-\mu_2> D_0 H0:μ1−μ2≤D0,:μ1−μ2>D0; H 0 : μ 1 − μ 2 = D 0 , : μ 1 − μ 2 ≠ D 0 H_0:\mu_1-\mu_2= D_0,:\mu_1-\mu_2\neq D_0 H0:μ1−μ2=D0,:μ1−μ2=D0;
- 检验统计量
Z = ( x ‾ 1 − x ‾ 2 ) − D 0 σ 1 2 n 1 + σ 2 2 n 2 Z=\frac{(\overline x_1-\overline x_2)-D_0}{\sqrt{{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}} Z=n1σ12+n2σ22(x1−x2)−D0 - 案例
有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知,第一种方法生产出的产品抗拉强度的标准差为8千克,第二种方法的标准差为10千克。从采用两种方法生产的产品中各抽一个随机样本,样本量分别为n1=32,n2=40,测得x1=50千克x2=44千克。问采用这两种方法生产出来的产品平均抗拉强度是否有显著差别(a=0.05)?
- 区间估计
-
未知 σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2,大样本,基于Z统计,
- 区间估计
当总体的方差 σ 1 2 , σ 2 2 \sigma^2_1,\sigma^2_2 σ12,σ22未知时用样本方差代替: ( x ‾ 1 − x ‾ 2 ) ± t α / 2 s 1 2 n 1 + s 2 2 n 2 (\overline x_1- \overline x_2)\pm t_{\alpha/2}\sqrt{{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}} (x1−x2)±tα/2n1s12+n2s22 ) - 合并样本的方差
- 区间估计
-
未知 σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2,小样本,t统计自由度、合并样本方差计算方式不同,
-
σ 1 = σ 2 \sigma_1=\sigma_2 σ1=σ2,置信区间,计算合并样本方差、自由度能直接得出
案例:
-
σ 1 ≠ σ 2 \sigma_1\neq\sigma_2 σ1=σ2,置信区间,计算自由度、样本方差能直接带入
案例- 假设检验 ,小样本, 未知 σ 1 , σ 2 \sigma_1,\sigma_2 σ1,σ2
- 形式 : H 0 : μ 1 − μ 2 ≥ D 0 , : μ 1 − μ 2 < D 0 H_0:\mu_1-\mu_2\geq D_0,:\mu_1-\mu_2< D_0 H0:μ1−μ2≥D0,:μ1−μ2<D0; H 0 : μ 1 − μ 2 ≤ D 0 , : μ 1 − μ 2 > D 0 H_0:\mu_1-\mu_2\leq D_0,:\mu_1-\mu_2> D_0 H0:μ1−μ2≤D0,:μ1−μ2>D0; H 0 : μ 1 − μ 2 = D 0 , : μ 1 − μ 2 ≠ D 0 H_0:\mu_1-\mu_2= D_0,:\mu_1-\mu_2\neq D_0 H0:μ1−μ2=D0,:μ1−μ2=D0; - 检验统计量 t = ( x ‾ 1 − x ‾ 2 ) − D 0 s 1 2 n 1 + s 2 2 n 2 t=\frac{(\overline x_1-\overline x_2)-D_0}{\sqrt{{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}}} t=n1s12+n2s22(x1−x2)−D0
- 自由度
d f = ( s 1 2 n 1 + s 2 2 n 2 ) 2 1 n 1 − 1 ( s 1 2 n 1 ) 2 + 1 n 2 − 1 ( s 2 2 n 2 ) 2 df=\frac{({{\frac{s^2_1}{n_1}+\frac{s^2_2}{n_2}}})^2}{\frac{1}{n_1-1}(\frac{s^2_1}{n_1})^2+\frac{1}{n_2-1}(\frac{s^2_2}{n_2})^2} df=n1−11(n1s12)2+n2−11(n2s22)2(n1s12+n2s22)2,假设两个总体的标准差相同时:自由度: n 1 + n 2 − 2 n_1+n_2-2 n1+n2−2 - 案例
-
均值样本之差 - 匹配样本matched sample)
-
目的:由于匹配样本实质上起到了控制观测变量影响因素的作用,因而可以得到更为精确的推断结果。
- 需要注意的是,在什么情况下可以把两个样本看成是匹配样本?在两个总体参数的检验问题中,根据可能的情况采用匹配样本的设计,可以有效地提高检验的效率。
-
定义:即一个样本中的数据与另个样本中的数据相对应。比如,先指定12个工人用第一种方法组装产品,然后再让这12个工人用第二种方法组装产品,这样得到的两种方法组装产品的数据就是匹配数据。
-
关键:仅考虑差值这一列,假设差值的总体服从正态分布。
-
置信区间
d ‾ ± t α / 2 s d n \overline d \pm t_{\alpha/2}\frac{s_d}{\sqrt{n}} d±tα/2nsd,式中,d表示两个匹配样本对应数据的差值; d ‾ \overline d d表示各差值的均值; σ d \sigma_d σd表示各差值的标准
差。当总体的 σ d \sigma_d σd未知时,可用样本差值的标准差 s d s_d sd来代替
在小样本情况下,假定两个总体各观察值的配对差服从正态分布。两个总体均值之差 μ d = μ 1 − μ 2 \mu_d=\mu_1-\mu_2 μd=μ1−μ2在1-a置信水平下的置信区间为: d ‾ ± t α / 2 ( n − 1 ) s d n \overline d \pm t_{\alpha/2}(n-1)\frac{s_d}{\sqrt{n}} d±tα/2(n−1)nsd- 案例
- 案例
-
检验统计量
t = d ‾ − μ d s d / n t=\frac{\overline d- \mu _d}{s_d/ \sqrt{n}} t=sd/nd−μd( d ‾ = ∑ d i n \overline d=\frac{\sum d_i}{n} d=n∑di, s d = ∑ ( d i − d ‾ ) 2 n − 1 s_d=\sqrt{\frac{\sum(d_i-\overline d)_2}{n-1}} sd=n−1∑(di−d)2)- 案例
- 案例
-
对比:
为什么由表8-5中相同的数据会得出不同的结论呢?通过对比可以看出,在匹配样本的检验中,抽样分布的标准差ax=0.695,而在独立样本的检验中,抽样分布的标准差on1-2=3.375。与较小的标准差相比,9.85显著大于8.5;而与较大的标准差相比,9.85大于8.5的程度则不显著。由于匹配样本实质上起到了控制观测变量影响因素的作用,因而可以得到更为精确的推断结果。
比例之差
- 基于
p ‾ 1 − p ‾ 2 \overline p_1-\overline p_2 p1−p2抽样满足正态分布。类似一个总体参数估计中,比例估计,只考虑大样本。能满足四值大于5: n 1 p 1 , n 1 ( 1 − p 1 ) n_1p_1,n_1(1-p_1) n1p1,n1(1−p1), n 2 p 2 , n 2 ( 1 − p 2 ) n_2p_2,n_2(1-p_2) n2p2,n2(1−p2).
由样本比例的抽样分布可知,从两个二项总体中抽出两个独立的样本,则两个样本比例之差的抽样分布服从正态分布。同样,两个样本的比例之差经标准化后服从标准正态分布,即 - 点估计量
- p ‾ 1 − p ‾ 2 \overline p_1-\overline p_2 p1−p2
- 标准误差: σ p ‾ 1 − p ‾ 2 = p ‾ 1 ( 1 − p ‾ 1 ) n 1 + p ‾ 2 ( 1 − p ‾ 2 ) n 2 \sigma_{\overline p_1-\overline p_2}=\sqrt{\frac{\overline p_1(1-\overline p_1)}{n_1}+\frac{\overline p_2(1-\overline p_2)}{n_2}} σp1−p2=n1p1(1−p1)+n2p2(1−p2)
- 区间估计
p ‾ 1 − p ‾ 2 ± z α / 2 p ‾ 1 ( 1 − p ‾ 1 ) n 1 + p ‾ 2 ( 1 − p ‾ 2 ) n 2 \overline p_1-\overline p_2\pm z_{\alpha/2}\sqrt{\frac{\overline p_1(1-\overline p_1)}{n_1}+\frac{\overline p_2(1-\overline p_2)}{n_2}} p1−p2±zα/2n1p1(1−p1)+n2p2(1−p2)
-案例:
- 假设检验
- 形式
- 双侧: H 0 : p = p 0 , H 1 : p ≠ p 0 H_0:p=p_0,H_1:p\neq p_0 H0:p=p0,H1:p=p0
- 单侧:
H 0 : p ≤ p 0 , H 1 : p > p 0 H_0:p\leq p_0,H_1:p>p_0 H0:p≤p0,H1:p>p0; H 0 : p ≥ p 0 , H 1 : p < p 0 H_0:p\geq p_0,H_1:p<p_0 H0:p≥p0,H1:p<p0, - 检验统计量计算:
设两个总体服从二项分布,这两个总体中具有某种特征的单位数的比例分别为x1和
2,但x1和2未知,可以用样本比例p1和p2代替。有以下两种情况: - 1.检验两个总体比例相等的假设
该假设的表达式为: H 0 : π 1 − π 2 = 0 H_0:\pi_1-\pi_2=0 H0:π1−π2=0
P的合并估计点,两个独立样本的点估计加权平均数。在原假设成立的条件下,最佳的方差是p(1-p),其中p是将两个样本合并后得到的比例估计量,即
p = x 1 + x 2 n 1 + n 2 = p 1 n 1 + p 2 n 2 n 1 + n 2 p=\frac{x_1+x_2}{n_1+n_2}=\frac{p_1n_1+p_2n_2}{n_1+n_2} p=n1+n2x1+x2=n1+n2p1n1+p2n2
式中,x1表示样本n1中具有某种特征的单位数;x2表示样本n2中具有某种特征的单位数。
在大样本条件下,统计量z的表达式为:
z = p 1 − p 2 p ( 1 − p ) ( 1 n 1 + 1 n 2 ) z=\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}} z=p(1−p)(n11+n21)p1−p2
案例: - 2.检验两个总体比例之差不为零的假设
- 形式
9总体方差的统计推断
前提
χ2(卡方)分布
-
χ2(卡方)分布(chi-square distribution)
- 介绍:
由正态分布构造而成的一个新的分布,当自由度 很大时, 分布近似为正态分布 - 定义:
n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和 Q = ∑ i = 1 n ξ i 2 Q=\displaystyle \sum^{n}_{i=1}{\xi^2_i} Q=i=1∑nξi2构成一新的随机变量,其分布规律称为卡方分布 - 自由度
其中参数 v v v称为自由度,正如正态分布中均数或方差不同就是另一个正态分布一样,自由度不同就是另一个 χ2分布。记为 $Q~ ξ 2 ( v ) \xi^2(v) ξ2(v)或者 (其中 v = n − k v=n-k v=n−k , k为限制条件数)。 - 概率表
- 只能查单侧概率值
查 χ2分布概率表时,按自由度及相应的概率去找到对应的 χ2值,单侧概率χ2 0.05(7)=14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1。 - 可以变化一下来查双侧概率值。
例如,要在自由度为7的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为 0.05/2(7)=16。下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为 1-0.05/2(7)=1.69。
- 只能查单侧概率值
- 介绍:
-
样本方差抽样分布(sampling distribution of variance)
从总体中重复随机抽取容量为n的所有样本,其样本方差的概率分布。
当总体服从正态分布,从中抽取容量为n的样本,样本方差与总体方差的比值服从自由度df=n-1的χ2(卡方)分布。- 性质
- 卡方分布密度曲线下的面积都是1.
- 分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),
- 随着参数 v的增大, 分布趋近于正态分布;自由度越小,分布越偏斜。
- 性质
总体方差的统计推断与检验
1. 一个总体
- 置信区间
这里只讨论正态总体方差的估计问题。根据样本方差的抽样分布可知,样本方差服从由度为n-1的χ2分布。因此,用χ2分布构造总体方差的置信区间。
若给定一个显著性水平a,用χ2分布构造的总体方差a的置信区间可用下表示:
要建立总体方差 σ 2 \sigma^2 σ2的置信区间,也就是要找到一个 χ \chi χ值,使其满足:
χ 1 − α / 2 2 ≤ χ 2 ≤ χ α / 2 2 \chi^2_{1-\alpha/2}\leq\chi^2\leq\chi^2_{\alpha/2} χ1−α/22≤χ2≤χα/22
由于 ( n − 1 ) s 2 σ 2 \frac{(n-1)s^2}{\sigma^2} σ2(n−1)s2~ χ 2 ( n − 1 ) \chi^2(n-1) χ2(n−1),可用它来代替 χ 2 \chi^2 χ2,于是有:
χ 1 − α / 2 2 ≤ ( n − 1 ) s 2 σ 2 ≤ χ α / 2 2 \chi^2_{1-\alpha/2}\leq \frac{(n-1)s^2}{\sigma^2} \leq\chi^2_{\alpha/2} χ1−α/22≤σ2(n−1)s2≤χα/22
根据上式可推导出总体方差 σ 2 \sigma^2 σ2在1- α \alpha α置信水平下的置信区间为:
( n − 1 ) s 2 χ α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ 1 − α / 2 2 \frac{(n-1)s^2}{\chi^2_{\alpha/2}}\leq {\sigma^2} \leq\frac{(n-1)s^2}{\chi^2_{1-\alpha/2}} χα/22(n−1)s2≤σ2≤χ1−α/22(n−1)s2- 案例
- 案例
- 假设检验
- 作用:反应稳定性。
方差大,说明产品的性能不稳定,波动大。凡与均值有关的指标,通常也与方差有关,方差从另一个方面说明研究现象的状况。在经济生活方面,对方差关注的例子比
比皆是。例如,居民的平均收入说明了收入达到的一般水平,是衡量经济发展阶段的一个重要指标,而收入的方差则反映了收入分配的差异情况,可以用于评价收入的合理性。在投资方面,收益率的方差是评价投资风险的重要依据。 - 流程:
方差检验的程序,与均值检验、比例检验是一样的,它们之间的主要区别是所使用的检验统计量不同。方差检验所使用的是χ2统计量。
正常情况下χ2是偏态分布,因此常用于单侧检验,临界点在右侧斜尾方向 - 案例:
- 作用:反应稳定性。
2.两个总体
F分布
- F分布
两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。- 统计量
1.若总体X~N(0,1),(X1,X2,Xm)与(Y1,Y2,…,Ymn2)为来自X的两个独立样本,设统计量F
则称统计量F服从自由度n1和n2的F分布,记为F~F(n1,n2)
2.若总体X~ N(μ,1)与总体Y~N(0,1)独立,(X1,X2,…,Xm1)为来自X的一个样本,(Y,Y2,Yn2)为来自Y的
个样本,统计量
称统计量F服从自由度为n1和n2,非中心参数为 δ = n μ 2 \delta=n\mu^2 δ=nμ2的非中心F分布,记为F~F(n1,n2,δ) - 概率密度曲线
- 统计量
- 置信区间
由于两个样本方差比的抽样分布服从 F ( n 1 − 1 , n 2 − 2 ) F(n_1-1,n_2-2) F(n1−1,n2−2)分布,因此可用F分布来构造两个总体方差比 σ 1 2 / σ 2 2 \sigma^2_1/\sigma^2_2 σ12/σ22的置信区间。用F分布构造的两个总体方差比的置信区间可用图来表示:
建立两个总体方差比的置信区间,也就是要找到一个F值,使其满足:
F 1 − α / 2 ≤ F ≤ F α / 2 F_{1-\alpha/2}\leq F\leq F_{\alpha/2} F1−α/2≤F≤Fα/2
由于 s 1 2 σ 2 2 s 2 2 σ 1 2 \frac{s_1^2\sigma^2_2}{s_2^2\sigma^2_1} s22σ12s12σ22~ F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1),故可用它来代替F,于是有:
F 1 − α / 2 ≤ s 1 2 σ 2 2 s 2 2 σ 1 2 ≤ F α / 2 F_{1-\alpha/2}\leq \frac{s_1^2\sigma^2_2}{s_2^2\sigma^2_1}\leq F_{\alpha/2} F1−α/2≤s22σ12s12σ22≤Fα/2
根据上式可以推导出两个总体方差比 σ 1 2 / σ 2 2 \sigma^2_1/\sigma^2_2 σ12/σ22在1- α \alpha α置信水平下的置信区间为:
式中 F α / 2 F_{\alpha/2} Fα/2和 F 1 − α / 2 F_{1-\alpha/2} F1−α/2是分子自由度为 n 1 − 1 n_1-1 n1−1和分母自由度为 n 2 − 1 n_2-1 n2−1的F分布的右侧面积为 α / 2 和 1 − α / 2 \alpha/2和1-\alpha/2 α/2和1−α/2的分位数。由于F分布表中只给出面积较小的右分位数,此时可利用下面的关系求得F1a/2的分位数值:
F 1 − α / 2 ( n 1 − n 2 ) = 1 F a ( n 2 , n 1 ) F_{1-\alpha/2}(n_1-n_2)=\frac{1}{F_a(n_2,n_1)} F1−α/2(n1−n2)=Fa(n2,n1)1式中,n1表示分子自由度;n2表示分母自由度。
案例:
- 假设检验
-作用
事实上,在许多情况下总体方差是否相等事先往往并不知道,因此在进行两个总体均值之差的检验之前,可以先进行两个总体方差是否相等的检验,由此获得所需要的信息。- 统计量F
F = s 1 2 s 1 2 F=\frac{s_1^2}{s_1^2} F=s12s12
为了比较两个未知的总体方差 σ 1 2 和 σ 2 2 \sigma^2_1和\sigma^2_2 σ12和σ22和,我们用两个样本方差的比来判断,如果F接近1,说明两个总体方差σ和很接近,如果比值远离1,说明a与a之间有较大差异。
在原假设 σ 1 2 = σ 2 2 \sigma^2_1=\sigma^2_2 σ12=σ22下,检验统计量的两个自由度:分子自由度 n 1 − 1 n_1-1 n1−1,分母自由度 n 2 − 1 n_2-1 n2−1。 - 单侧检验中,一般把较大的s2放在分子s的位置,此时F>1,拒绝域在F分布的右侧,原假设和备择假设分别为:H0:a≤02,H1:a1>02,临界点为 F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1)。这样处理含义明确,易于理解,而且查表方便。
- 双侧检验
拒绝域在F分布的两侧,两个临界点的位置分别为:
- 统计量F
10多个比率的比较&独立性检验&拟合优度检验
- 目的
根据「样本数据」基于卡方分布检验「多个总体比率」(分类数据的频数进行分析)是否全相等。利用 χ 2 \chi^2 χ2对分类数据进行拟合度检验和独立性检验
1.多个总体比率的相等性检验
-
定义:
- 目的
根据「样本数据」基于卡方分布检验「多个总体比率」(分类数据的频数进行分析)是否全相等。
- 目的
-
假设检验-步骤
- 建立假设
H 0 : p 1 = p 2 = … … p k H_0:p_1=p_2=……p_k
- 建立假设