SparkML之假设性检验(二)分布拟合检验

1.什么是分布拟合检验

在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。比如依据大数定理,

我们假设一组生产零件是成正态分布的,但是这个所为的成正态分布也只是我们的假设,为了验证我们的假设那么就需要对

这个分布进行检验,这就是分布拟合检验 ,也称之为:非参数检验。下面就介绍检验


2.检验

检验法:总体分布X未知的时候,根据来自总体的样本,来检验之前假设的分布。具体原理可以查看
(http://wiki.mbalib.com/wiki/卡方分布)。
下面结合实际列子对 检验 法简单阐述(检验法,有很多用处,下面是独立性检验)。


问题:色盲和性别是否相互独立?

第一步:检验原假设:

:色盲与性别相互独立

第二步:计算理论频数:



第三步:计算拒绝域:

我们希望是可信度 a = 0.01的情况下,那么拒绝域为:



第四步:下结论




所以拒绝原假设,认为色盲和性别有关联:

SparkML实验:

package Basic

import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics.chiSqTest
/**
  * Created by andrew on 2016/4/14.
  */
object chiSqrtTest {
  def main(args: Array[String]) {
    val x1 = Vectors.dense(458.88,21.12)
    val x2 = Vectors.dense(497.12,22.88)
    val c1 = chiSqTest(x1,x2)
    println(c1)
    /**
      * Chi squared test summary:
        method: pearson
        degrees of freedom = 1 
        statistic = 7.041436253018793E-30 
        pValue = 0.9999999999999979 
        No presumption against null hypothesis: observed follows the same distribution as expected..
      */
  }
}


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值