判断是否有统计意义/差异具有显著性/具有显著差异/零假设（希望证明为错误的假设）/卡方检验

最新推荐文章于 2025-02-17 22:21:51 发布

一只勤奋爱思考的猪

最新推荐文章于 2025-02-17 22:21:51 发布

阅读量8.6w

点赞数 25

分类专栏：数据挖掘分析

本文链接：https://blog.csdn.net/sinat_26566137/article/details/80971362

版权

数据挖掘分析专栏收录该内容

5 篇文章

订阅专栏

本文详细阐述了统计学中有统计学意义与差异显著的区别，解释了零假设与备择假设的概念，并介绍了卡方检验的过程。通过具体例子说明了如何正确解读P值及其在假设检验中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

（1）有统计学意义

**统计学意义是指在研究组和对照组间出现疗效差异时,要考虑这种差异是防治措施的疗效还是因抽样误差所引起的.可通过P值判断。
**P值指的是比较的两者的差别是由机遇所致的可能性大小。****P值越小，越有理由认为对比事物间存在差异。**例如，P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%，或者说，**别人在同样的条件下重复同样的研究，得出相反结论的可能性不足5%。**P>0.05称“不显著”；P<=0.05称“显著”，P<=0.01称“非常显著”。

由于常用“显著”来表示P值大小，所以P值最常见的误用是把统计学上的显著与临床或实际中的显著差异相混淆，即混淆“差异具有显著性”和“具有显著差异”二者的意思。其实，前者指的是p<=0.05，即说明有充分的理由认为比较的二者来自同一总体的可能性不足5%，因而认为二者确实有差异，下这个结论出错的可能性<=5%。而后者的意思是二者的差别确实很大。举例来说，4和40的差别很大，因而可以说是“有显著差异”，而4和4.2差别不大，但如果计算得到的P值<=0.05，则认为二者“差别有显著性”，但是不能说“有显著差异”。

（2）差异具有显著性

二者确实有差异，下这个结论出错的可能性<=5%；

（3）具有显著差异：

后者的意思是二者的差别确实很大；

（4）统计学中的假设

（4-1）零假设

在推论统计学中，零假设（英语：null hypothesis，又译虚无假设、原假设，符号：H0）是做统计检验时的一类假设。

零假设的内容一般是希望能证明为错误的假设，或者是需要着重考虑的假设。
比如说，在相关性检验中，一般会取“两者之间无关联”作为零假设，
而在独立性检验中，一般会取“两者之间非独立”作为零假设。

（4-2）备择假设

与零假设相对的是备择假设（对立假设，英语：alternative hypothesis），即希望证明是正确的另一种可能。
从数学上来看，零假设和备择假设的地位是相等的，但是在统计学的实际运用中，常常需要强调一类假设为应当或期望实现的假设。
如果一个统计检验的结果拒绝零假设（结论不支持零假设），而实际上真实的情况属于零假设，那么称这个检验犯了第一类错误。
反之，如果检验结果支持零假设，而实际上真实的情况属于备择假设，那么称这个检验犯了第二类错误。
通常的做法是，在保持第一类错误出现的机会在某个特定水平上的时候（即显著性差异值或α值），尽量减少第二类错误出现的概率。

自己的理解：第一类错误在某个特定水平，保证了我们数据的大致分布，与我们当初设定零假设是一致的，我们的零假设是保证大多数被证明是错误的假设，先保证大多数正确分布的（原假设），再减少少量错误分布的（备择假设——本来数量就比较少）；

（5) 卡方检验

1）建立零假说（Null Hypothesis），即认为观测值与理论值的差异是由于随机误差所致；
2）确定数据间的实际差异，即求出卡方值；
3）如卡方值大于某特定概率标准（即显著性差异）下的理论值，则拒绝零假说，即实测值与理论值的差异在该显著性水平下是显著的。

关于统计学里面的P值，与定义的a是很有关系的，只有根据定义好的a，去判断P值是否有统计学意义。
以上是个人的一些理解。另外还想补充一下p值的具体含义（自己学的时候也总是不好理解）：
就用p<0.05与p<0.01相比较：
1）p值通常是和a（阿发）相联系比较的。（a就是允许犯错误的概率，一般在做假设检验之前先定好）
2）p<0.05就是说：拒绝原假设h0（而h0为真）的犯错误的概率小于0.05。若此时定a为0.05，就可以拒绝h0，接受h1。
3）相同的p<0.01就是说：拒绝原假设h0（而h0为真）的犯错误的概率小于0.01。
两个p值比较下来，就是说在第二个p值条件下拒绝h0更有把握，犯错误的可能性更小一些。这并不说明实际中样本间的差异，第一种就比第二种小一些。

（6）”有统计学意义"和"差异显著"的区别

”有统计学意义"和"差异显著"是两个不同的概念，“差异显著"易给人一种误导,原来两概念在统计学中经常有点通用，现在明确地只能用“有统计学意义”。P<0.05是指假设H0（即两总体没区别）成立的可能性概率在5%以下，a就是允许犯Ⅰ类错误（拒绝了正确的无效假设H0）的概率，一般在做假设检验之前先定好，如果a=0.05，表示允许犯Ⅰ类错误的概率为0.05，所以当P<0.05时，说明在a=0.05允许的范围内，认为两总体是有差异的，即两总体差异有统计学意义（指在a=0.05的统计学参数情况下）；
如果此时P=0.04，而先设定a=0.01，则认为两总体差异无统计学意义（指在a=0.01的统计学参数情况下），虽然两总体没变，两总体差异也没变；
所以 ”有统计学意义"并不等同于"差异显著” ，举个例吧：两组数：
A组：3, 3.05, 3.01, 3.04, 2.95;
B组：3.2, 3.1, 3.15, 3.14, 3.12;
两组数差异（均数）并不大,但P<0.001,设定a=0.01或0.05,则认为两总体差异统计学意义。这主要与两组数的标准差有关。如果写成两总体差异显著，易认为两组数（均数）差别大。
两组数差异（均数）大，但无统计学意义的例子就不举了。

P值是论文中最常用的一个统计学指标，可是其误用、解释错误的现象却很常见。因此，很有必要说明p值的意义、用法及常见错误。

P值指的是比较的两者的差别是由机遇所致的可能性大小。P值越小，越有理由认为对比事物间存在差异。例如，P<0.05,就是说结果显示的差别是由机遇所致的可能性不足5%，或者说，别人在同样的条件下重复同样的研究，得出相反结论的可能性不足5%。P>0.05称“不显著”；P<=0.05称“显著”，P<=0.01称“非常显著”。

由于“有显著差异”和“差异具有显著性”容易混淆，因而现在有些期刊提倡用“差异有统计意义”来代替“差异有显著性”，用“差异无统计意义”、“差异有高度统计意义”来代替“差异不显著”和“差异有高度显著性”。例如《中华胃肠外科学》即是如此。

如果P>5%，是否我们就可以下结论说比较的二者没有差别呢？不能。P>5%只能说明没有充分的证据说明二者确有差别，但是也不能说二者没有差别或差别很小。在这两个极端之间还有一个过渡区间，即无论下有差别还是没有差别或差别很小的证据都不足。要推断二者没有差别或差别很小，需要采用等效检验的统计推断方法。