1.什么是分布拟合检验
在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。比如依据大数定理,
我们假设一组生产零件是成正态分布的,但是这个所为的成正态分布也只是我们的假设,为了验证我们的假设那么就需要对
这个分布进行检验,这就是分布拟合检验 ,也称之为:非参数检验。下面就介绍检验法
2.检验法
检验法:总体分布X未知的时候,根据来自总体的样本,来检验之前假设的分布。具体原理可以查看
(http://wiki.mbalib.com/wiki/卡方分布)。 下面结合实际列子对 检验 法简单阐述(检验法,有很多用处,下面是独立性检验)。
(http://wiki.mbalib.com/wiki/卡方分布)。 下面结合实际列子对 检验 法简单阐述(检验法,有很多用处,下面是独立性检验)。
问题:色盲和性别是否相互独立?
第一步:检验原假设:
:色盲与性别相互独立
第二步:计算理论频数:
第三步:计算拒绝域:
我们希望是可信度 a = 0.01的情况下,那么拒绝域为:
第四步:下结论
所以拒绝原假设,认为色盲和性别有关联:
SparkML实验:
package Basic import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.stat.Statistics.chiSqTest /** * Created by andrew on 2016/4/14. */ object chiSqrtTest { def main(args: Array[String]) { val x1 = Vectors.dense(458.88,21.12) val x2 = Vectors.dense(497.12,22.88) val c1 = chiSqTest(x1,x2) println(c1) /** * Chi squared test summary: method: pearson degrees of freedom = 1 statistic = 7.041436253018793E-30 pValue = 0.9999999999999979 No presumption against null hypothesis: observed follows the same distribution as expected.. */ } }