分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow
也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴!
χ2分布
随机变量X是独立的标准正态分布变量,X~N(0,1),即E(X)=0, Var(X)=1。
Q1=X12,Q1是一个Chi-Square分布,记为,degree of freedom is 1
Q2=X12+ X22,Q2是一个Chi-Square分布,记为 ,degree of freedom is 2
以此类推。图为Chi-Square的分布图。有χ table可供查询,例如P(Q2>2.41) = 0.3
皮尔逊χ2分布检验:Pearson’s chi-squared test
实际观察次数O与某理论次数(E又称期望次数)之差的平方再除以理论次数乃是一个与抽样分布之一的χ2分布非常近似的次数分布。
而自由度则是不相干事件得数目。
如同n足够大是,二项分布和正态分布非常吻合一样,这里也不做理解证明,由法国数学家Pearson给出,就当给了个工具,我们相信工具有效,来使用工具,常用于检查出现频率。
例子1:一维χ2检验
已知从周一到周六,顾客的分布比例为10%、10%、15%、20%、30%、15%,而观察值顾客数为30、14、34、45、57、20,问在significance level α=5%下,这个比例是否正确。
H0:比例正确;H1:比例不正确
自由度是多少,有6个参数,但是自由度是n-1=5,因为只要知道5个,第6个参数是可以计算出来的。查χ表,自由度5的行,α=5%时,χc2=11.07,根据实际观察计算的值比所查值更为极端,所有拒绝给出分布比例H0
例子2:二维列联表χ2检验
检验可能是二维表的方式,例如顾客中又分了男女,由于最后一行和最后一列都可以由其他信息获得,不是独立变量,自由度为(m-1)(n-1)。列联表也成为contingency table。下面例子是某个发病季节检验草药在significance level α=10%是否有效。
根据上面的情况我们进行信息补充:
H0:Herb do nothing; H1: Herbs do something
2行3列,自由度为(2-1)(3-1)=2,查chi table,α=5%时χc2=4.5,所有我们不能拒绝H0,即不能认为草药有作用。
相关链接:我的四方书库