数据分析中有一块很大的版图是属于均值对比的,应用广泛。例如,对比试验前后病人的症状,证明某种药是否有效;对比某个班级两次语文成绩,验证是否有提高;对比某个产品在投放广告前后的销量,看广告是否有效。这些都属于两均值对比的应用。
均值对比的假设检验方法主要有Z检验和T检验,它们的区别在于Z检验面向总体数据和大样本数据,而T检验适用于小规模抽样样本。
统计上对参数的假设,就是对一个或多个参数的论述。
而其中欲检验其正确性的为零假设(null hypothesis),零假设通常由研究者决定,反映研究者对未知参数的看法。
相对于零假设的其他有关参数之论述是备择假设(alternative hypothesis),它通常反映了执行检定的研究者对参数可能数值的另一种(对立的)看法(换句话说,备择假设通常才是研究者最想知道的)。
T检验
t检验
t检验可分为单总体检验和双总体检验,以及配对样本检验
T检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。
T检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
单总体检验:单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。
双总体检验:双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。
Z检验
Z检验(Z Test)又叫U检验。由于实际问题中大多数随机变量服从或近似服从正态分布,U作为检验统计量与X的均值是等价的,且计算U的分位数或查相应的分布表比较方便。通过比较由样本观测值得到的U的观测值,可以判断数学期望的显著性,我们把这种利用服从标准正态分布统计量的检验方法成为U检验(U-test)
卡方检验
卡方检验
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
χ
2
=
∑
(
A
−
T
)
2
T
\chi ^2 = \sum \frac{(A-T)^2}{T}
χ2=∑T(A−T)2
其中A为实际值,T为理论值
F检验
其通常是用来分析用了超过一个参数的统计模型,以判断该模型中的全部或一部分参数是否适合用来估计母体。