过程
假设检验,最简单的可以分成以下4步:
①分析问题,提出假设
②计算假设为真的可能性
③确定判断标准
④作出结论
例子
举个最近的例子,以下的例子仅仅只是想更好的解释假设检验的背后逻辑,不可当真。
7月3日上午,百度AI开发者大会现场,百度创始人、董事长、CEO李彦宏在对百度实现自动泊车进行演讲,讲到打通自由出行最后一公里时,突遇意外,一名男子拿一瓶矿泉水兜头给他浇了一头水。李彦宏身穿的白衬衫几乎湿透。
现场一度陷入沉默。李彦宏反应了两秒钟之后,对泼水人说了一句,“What’s your problem?”(你有什么问题),然后一边用手擦脸上的水,一边说,“大家看到AI前进的道路上,还是会有各种各样意想不到的事发生,但是我们前行的决心不会改变。我们坚信AI会改变每一个人的生活。”
好了。
第一步:分析问题,提出假设
在这个新闻过后,我就在知乎看到了这个说法
这让我很是疑惑,现在有这么一个问题:被泼水的是李彦宏还是AI?
根据这个问题提出两个互为相反的假设:
零假设:被泼水的是李彦宏
对立假设:被泼水的是AI
现在我们举的是最简单的例子,即满足二项分布。从逻辑学来看,如果我们能证明零假设不成立,那也就是说明对立假设一定成立。也就是在这里例子中,如果我们能找到足够证据来否定零假设(被泼水的是李彦宏),那我们也就有足够的证据来说明对立假设(被泼水的是AI)是成立的。
福尔摩斯说:一旦排除所有的不可能,剩下的不管多么难以置信,一定就是真相。
第二步:计算假设的可能性
首先我们要知道中心极限定理(即有合理且足够多的样本就可以代表总体)。所以我们现在就去找证据来证明被泼水的是李彦宏。
接下来,我调查了许多相关数据,包括近几年百度AI的开发情况、AI平台的配置情况、李彦宏近几年的演讲能力、李彦宏的生活习惯等等
然后根据这些样本数据,利用一些概率统计知识,我算得在零假设成立的前提下,样本数据计算出来被泼水的是李彦宏的概率是2%,也就是说有98%的概率被泼水的是AI
这个概率值我们称之为p值,p值也就是在零假设成立的前提下,得到的样本观察结果出现的概率。
第三步:确定判断标准
但是我们现在还不能就说被泼水的一定是AI,毕竟真是AI的话这技术水平很高的。
那我们就需要确定一个标准,这样我们就很方便通过将计算得到的数据和标准直接比较就能知道哪个假设是成立的了。
好了,我问了一下上天,上天说:“如果被泼水的是李彦宏的概率小于5%,那么可以直接否定零假设,也就是对立假设成立。”
这里用于做出决策的标准5%,在假设检验中我们称为“显著水平”,用符号α,检验常用的判断标准有0.1% 1% 5%,表一个概率值
第四步:作出结论
那么,被泼水的到底是李宏彦还是AI呢?
有了上天给的标准,我们一下子就可以从P(被泼水的是李宏彦)=0.02 < α=0.05,所以我们可以判断对立假设成立。
可怕,被泼水的居然是AI,看来百度的AI的CPU散热问题还是要改进的,这个过热到需要泼水来降温,这样的方法虽然很方便,但是大庭广众确实不太雅观,毕竟AI也要面子的。
后话
其实假设检验的底层思想很简单,我们可能在生活中很常用到,就像:
(第一步)你在思考你女朋友现在是否在家
(第二步)通过家门口是否有女朋友的鞋子、家里是否有声响等来判断女朋友在家的概率,通过许多不同的数据来计算女朋友在家的概率
(第三步)如果女朋友在家的概率低于判断标准,那我们就可以否定女朋友在家这个假设,而去肯定女朋友不在家。
(第四步)女朋友既然不在家,那我们就可以