- 常见分布
- 正态分布:
- 标准正态分布:
- 对数正态分布:
- 均匀分布:
- 指数分布:
- 伽玛分布:,其中
- 分布:
- 设是来自正态总体的一个样本,则
- 若是来自标准正态分布的一样样本,则其平方和服从自由度为n的分布。
- 贝塔分布:
- t分布:,t分布是正态总体的一个样本的样本均值与样本标准差的特定函数。当自由度较大(如)时,t分布可以用标准正态分布近似。
- F分布:设随机变量,且两者独立,则的密度函数为,此分布为自由度为n与m的F分布,记为。为自由度为n与m的F分布p分位数,有
-
分布特征数
- 特征数定义
分布的特征数刻画分布的位置、散布、偏度、峰度。其中偏度与峰度都是描述分布形状的特征数,他们都是以正态分布为基准。
- 数学期望:。
- 方差:称为偏差,则偏差平方的数学期望为随机变量X(或相应分布)的方差,记为。
- 标准差:方差的平方根称为随机变量X(或相应分布)的标准差,记为或。
-
变异系数:标准差与数学期望的比值,即,变异系数是无单位的量。
-
偏度系数:,偏度系数是描述分布偏离对称性程度的一个特征数。称分布为正偏或右偏,称分布为负偏或左偏,分布关于是对称的。
-
峰度系数:,峰度是描述分布尖峭程度和尾部粗细的一个特征数,是相对与正态分布而言的超出量。
- 常见分布的特征数
分布 | 均值 | 方差 | 偏度 | 峰度 |
均匀分布 | 0 | -1.2 | ||
正态分布 | 0 | 0 | ||
指数分布 | 2 | 6 | ||
伽玛分布 |
- 假设检验
根据所获样本,运用统计分析方法对总体X的某种假设做出判断,具体包含建立假设,寻找检验统计量,构造拒绝域,直到最后做出判断四个步骤。
- 建立假设
一般假设检验问题需要建设两个假设:原假设与备择假设。假设全网客户Arpu服从正态分布,需要检测全网客户平均Arpu是否为40,则可建立以下两个假设:
原假设
备择假设 (双侧检验问题)
某些情况下,Arpu允许过高不得过低或允许过低不得过高,则可建立以下两对假设:
原假设
备择假设 (单侧检验问题)
原假设
备择假设 (单侧检验问题)
- 选择检验统计量
为样本的Arpu均值,那么在原假设为真的情况下,经标准化变化可得
这里的u就是检验统计量,分子的绝对值是样本均值与总体均值之间的距离,其大小表征系统误差大小,分母是随机误差大小,两者比值表征系统误差是随机误差的倍数。可见若u的绝对值越大,系统误差越大,这是应倾向于拒绝;相反则倾向于不拒绝。即是寻找临界值c,使得:
当,拒绝;
当,不拒绝。
则称为该双侧检验问题的拒绝域,记为W。临界值c的确定将用控制犯错误概率确定。
- 根据显著性水平,确定临界值
在假设检验中可能犯的错误有如下两类:
第I类错误(拒真):原假设为真,由于抽样随机性,样本落在拒绝域,从而导致拒绝原假设,其发生概率记为,又称为显著性水平。
第Ⅱ类错误(取伪):原假设不真,单由于抽样随机性,样本未落在拒绝域,从而导致接受原假设,其发生概率为。
由此可见,=P(犯第I类错误)=P(为真时拒绝)。
这个概率是成立下,计算拒绝域的概率,此时,则:
,其中为标准正态分布函数,由上式知,是c的严减函数,即越小,拒绝域越小。
一般理论研究表明:随着的减小,在增加;随着样本量的增加,与在减小。
- P值判断
一个假设检验问题中不同的显著性水平会导致不同的结论,而显著性水平的选择又带有人为因素,因此提出"p值"的概念,即:在一个假设检验问题中,拒绝原假设的最小显著性水平称为p值。
若值,则拒绝原假设;若值,则接受原假设。
-
卡方拟合优度检验(检验)
- 定义
检验需要将总体分类为有限类,检验结论依赖于分组,不同分组有可能得出不同的结论,故在检验在连续分布场合有一定的不足之处。
将总体分为有限类(分组经验公式,n为样本量),每类中的观察频数为,根据原假设每类中的期望频数为,则为检验的检验统计量。当n充分大时,近似服从自由度为的分布,其中为分类组数,为假设分布的未知参数个数。对于显著性水平,拒绝域为。
每类中的期望频数不应过小,建议取。
- 列联表的独立性检验
检验可应用于检验两个分类随机变量之间的独立性。
X | 行和 | |||||
… | ||||||
Y | … | |||||
… | ||||||
… | … | … | … | … | ||
… | ||||||
列和 | … | n |
X与Y独立时,对一切的i和j有,因此假设检验为:
原假设
备择假设 至少有一对i,j,使得
,其拒绝域为,其中,这里仍然要求。