统计推断的前提和最应该知道的概念_统计推断应满足什么前提条件-CSDN博客

本文链接：https://blog.csdn.net/dataxc/article/details/105906619

统计推断的前提和最应该知道的概念

之前收到一些同学朋友的咨询，大部分是关于如何计算p值的。诸如：我知道均数和方差可以计算p值吗？或者给我列了列联表让我我计算p值的。
面对这样的问题，我很无奈，我的回答一般都是，你有原始资料吗，把原始资料给我看看？可以算，但是如果你仅仅给我均数方差N、仅仅给我一个列联表，它有什么意义呢？
今天我将对我以上的发问进行解答，讲一讲在进行统计分析前，最应该知道的东西——样本推断总体！

随便翻开一本统计学教材，最最最开始一定会告诉大家几个最基本概念，总体、样本、参数、统计量、误差、抽样、随机化、概率、频率……讲完这些才告诉大家统计描述和统计推断……

所以，为什么知道均数、方差N，有列联表计算的p不一定有意义？
请听一个小学应用题：小明有5岁，小红有3个苹果，请问他俩一共有几个苹果？
这根本没法计算，但统计软件它不知道，统计软件就是个计算器。你给他5和3，加减乘除乘方随便来一通不就出结果了吗，但结果是你想要的吗，不是！

计算p值属于统计推断，也就是，根据样本信息，推断总体信息。
举个例子，厂家做了两批灯泡A和B，想知道谁的寿命更长，好采取不同的定价策略；当然，最精确的办法是，把两种灯泡都用完再比较，但那已经没有意义了。
所以，正常的做法是，从A、B两批灯泡中，分别抽取一定数量的灯泡（这就是样本，我们可以把它叫做a、b），测量他们的寿命a1、a2、a3……b1、b2、b3，最后比较其寿命，然后用这两批“样本”去推断这两批灯泡（A、B）的寿命。那么，如何抽取a和b呢，要抽多少，要怎么抽？

（1）怎样抽样？
田忌赛马的故事大家都听过，大家都知道田忌的上中下三等马都差于对手，但最终田忌赢了。为什么？因为他们在“抽样”的时候做了手脚，用田忌的上等马对对手中等马，用田忌中等马对对手下等马，赢了两局。
对此，抽样的时候尽可能做到随机化

（2）抽多少合适？抽的少不行，抽的多浪费资源。以后再讲具体的。

（3）p值是什么，由于我们抽取的是两批灯泡中的部分样品，用这个样本去代表总体可能出错，也就是你得出a好于b，但实际情况是A差于B，这个时候才需要计算p值，看看你犯错误的可能是多少。如果犯错误的可能性很低（比如小于0.05,0.01），你才可以根据你的a好于b的结论来推断A好于B。

（4）什么时候才需要计算p值，如果你根本没有抽样，你比较的是两个总体，不需要计算p值。你把A、B两批灯泡用完了，再比较他们的寿命长短，那不可能有错，大就是大、小就是小。。。。

（5）用什么方法计算p值，这需要根据样本的分布来确定。以后再讲具体的。

（6）最后说明下，抽样不仅仅是直观的，抛一次硬币这样的也是抽样。

为什么说，你给我均数、方差、N，列联表，我计算的p值可能没意义。因为资料可能根本没有抽样，在用两个总体比较，可能没有随机化抽样，可能“所给的列联表”仅仅是几个数字，不是有真正的列联表……

最后解释下，如果知道均数、方差、N，还知道它属于正态分布，逆运算计算一下p是可以的，但一般用于验证别人研究的结果。。。。看到别人的四格表资料，也可以给他计算下p看看它有没有错误。。。

在这里插入图片描述
欢迎大家关注微信公众号。