统计学中存在两类错误
内容参考:链接: (https://blog.csdn.net/gdp12315_gu/article/details/49976139)
这两类错误主要是在统计学假设检验中所出现的,因此,先要了解假设检验的基本概念。
1.假设检验
-
假设检验(Hypothesis Testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。
-
假设检验(反证法的思想),依据样本统计量作出的统计推断,其推断结论并非绝对正确,结论有时也可能有错误,错误分为两类。
2.两类错误
-
简单来说,
第一类错误,拒绝了实际上成立的,为“弃真”的错误;
第二类错误,不拒绝实际上不成立的,为“存伪”的错误;
假设检验时,根据检验结果作出的判断,即拒绝H0 或不拒绝H0 。 -
第一类错误(typeⅠerror),Ⅰ型错误,拒绝了实际上成立的H0 ,即错误地判为有差别,这种弃真的错误称为Ⅰ型错误。其概率大小用即检验水准用α表示。α可取单尾也可取双尾。假设检验时可根据研究目的来确定其大小,一般取0.05或者0.01,当拒绝H0时则理论上理论100次检验中平均有5次或者1次发生这样的错误。
-
第二类错误(typeⅡ error)。Ⅱ型错误,接受了实际上不成立的H0 ,也就是错误地判为无差别,这类取伪的错误称为第二类错误。第二类错误的概率用β表示,β的大小很难确切估计。
-
当样本例数固定时,α愈小,β愈大;反之,α愈大,β愈小。因而可通过选定α控制β大小。要同时减小α和β,唯有增加样本例数。统计上将1-β称为检验效能或把握度(power of a test),即两个总体确有差别存在,而以α为检验水准,假设检验能发现它们有差别的能力。实际工作中应权衡两类错误中哪一个重要以选择检验水准的大小。
假设检验时应注意的事项
- (一)要有严密的抽样研究设计;样本必须是从同质总体中随机抽取的;要保证组间的均衡性和资料的可比性。
- (二)根据现有的资料的性质、设计类型、样本含量大小正确选用检验方法。
- (三)对差别有无统计学意义的判断不能绝对化,因检验水准只是人为规定的界限,是相对的。差别有统计学意义时,是指无效假设H0 被接受的可能性只有5%或不到5%,甚至不到1%,根据小概率事件一次不可能拒H0 ,但尚不能排除有5%或1%出现的可能,所以可能产生第一类错误;同样,若不拒绝H0 ,可能产生第二类错误。
- (四)统计学上差别显著与否,与实际意义是有区别的。如应用某药治疗高血压,平均降低舒张压0.5kPa,并得出差别有高度统计学意义的结论。从统计学角度,说明该药有降压作用,但实际上,降低0.5kPa是无临床意义。因此要结合专业作出恰如其分的结论。
补充
- 假设验证无非是一个数学结构。在涉及这样的一个数学结构(检验策略)的时候,统计学家说:“我必将Type I error 发生的概率控制在0.05以内,并在这个前提下尽可能减小Type II error发生的概率(但减小到什么程度我就不能保证了)。”所以,统计学家的听众们就知道了,在统计学家设计的这个数学结构中,I error发生的概率是可以完美控制的。听众们想利用这个数学结构来检验一些命题,以此来解决一些实际问题,但是人们不想犯错误,所以,人们通过合理挑选原假设、备择假设,以使得其最不想犯的错误恰为可以完美控制发生概率的Type I error。
所以,为什么第一类错误更有价值?因为在使用假设检验进行分析时,人们就将不想犯的根本性错误放在了被该方法可控的第一类错误的位置,所以第一类错误往往会揭示实验体系存在根本性错误,而第二类错误则不能排除误差的可能的,或者说实验体系本身没问题,只是精确度上还有待完善。
示例辅助理解
-
typeI error和typeII error在生物统计背景下有一个很好的解释。
假设现在有一批药需要测试疗效。H0:这批药没效果H1:这批药有效果α=H0真时拒绝H0,拒真错误。对应到现实里是,拒绝没效果=有效果。我们认为一批药有效果以后将给病人吃,但其实这批药是没效果的,那病人吃了以后就死了呀,这个α对应的是人生命的风险,是消费者风险。β=H0错时接受H0,取伪错误。接受无效,一批药明明有效确认为它无效。这个充其量就是药厂不会生产这种药,但还有什么阿司匹林,阿莫西林其他的药可以生产,威胁不到人的生命,是一种生产者风险。生命高于金钱,所以在控制两类错误时,我们优先控制type I error,一般都是规定好的0.05,然后想办法降低typeII error。关于α和β,和第I和第II类错误的命名我觉得也是这样的,因为人们觉得第I类错误比第II类错误更加重要,而希腊字母里α也排的比β前,越重要的东西越放在前面。
作者:逍遥温温
链接:https://www.zhihu.com/question/37437658/answer/332072770 -
一般情况下,零假设代表无效、无作用或者无影响,而备选假设代表有效、有作用或者有影响。出于谨慎目的,我们会特别在意,实际无效但被我们判断有效的第一类型错误。比如在验证自己设计新算法有效性实验中,如果我们能控制算法实际无效但被我们判断有效的第一类型错误,只要我们做出“新算法有效”的结论,这个结论就一定是坚实的。至于本来新算法有效而被我们认为无效,这样的第二类错误可以狗带了。
作者:AlgorithmDog
链接:https://www.zhihu.com/question/37437658/answer/72020413 -
链接:https://www.zhihu.com/question/37437658/answer/75413132
H0:A是好人。
H1:A是坏人。
这个时候法官要怎么判?如果A是好人,但是却判成了坏人,这就是犯了第一类错误,拒真错误。但是如果A是坏人,却错判成了好人,这就是犯了第二类错误。这时候法官问陪审团怎么看。
法官问了陪审团100个人如下2个问题:
问题1:A是不是好人吗?
问题2:A是不是坏人吗?
有一些陪审员坚定的认为A是好人,另一些人为A是坏人,但是还有一些人说不准,并不知道是不是好人,还有的人觉得A应该不是好人,但是又不能说A是坏人。
结果这四个问题的投票结果如下:
100个人里面,有97个说,他不是好人,但是还有3个人坚定的说A是好人。这就是P值为0.03。也就是如果他是好人,那么犯错的概率应该是0.03。另一方面,100个人里面却只有45个人认为,他应该是坏人。所以如果A是坏人,那么犯第二类错误的概率应该是0.55。
这时候法官要如何判决呢?这就要给定一些条件了。如果你说,我宁可错杀三千,绝不放过一个!那你就让第二类错误的概率尽可能小。只要陪审员里面有足够的人认为他是坏人,那么我就判他是坏人。比如这个投票结果中,只有45个人认为是坏人,如果这样就判定A是坏人的话,可能就很武断了。这样判刑带来的代价是很可怕的。政治清明的年代,司法应该尽可能减少冤假错案,即所谓疑罪从无_百度百科和无罪推定_百度百科的原则。也就是,如果没有足够的人说A不是好人,那么司法就应该判定A为好人。因此,全国最高法院给出了这样的标准是:100个人里面只有至少有95个人说他不是好人,那么才能判决A有罪。如果这样,在这个例子中法官就可以判A有罪了。用统计学的语言说,就是,在alpha=0.05的置信水平下,P=0.03,拒绝了原假设。此时犯第二类错误的概率为0.55。但是如果最高法院设定的标准为100个人里面,需要有99个人说A不是好人,才可以判刑,那么法官只能将A无罪释放了。
这里并不是说不用避免犯第二类错误,第二类错误也是需要尽量避免的。只不过根据无罪推定原则和疑罪从无原则,我们应该控制的是尽可能别把没罪判为有罪,其次应该控制的才是尽可能减少让有罪的人继续逍遥法外。
如果还有另外一组陪审员更明察秋毫,纠结的人很少,判案比较果断的话,那么这组陪审员的判案效果是要好过之前的这组陪审员的。比如他们对法官的两个问题的解释是:
那么这组陪审员给出的检验结果就很好。统计学的话就是:犯第一类错误的概率为0.03,犯第二类错误的概率为0.1。这组陪审员与第一组陪审员相比,在犯第一类错误的概率相等的情况下,犯第二类错误的概率更小。这样的陪审员才是好的陪审员啊!(也就是检验2优于检验1)
那么如何寻找这样优秀的陪审员呢?N-P引理告诉我们,如果我们控制犯第一类错误的概率在某个限度内,去寻找犯第二类错误可能最小的检验,在这样的准则下,似然比检验 wikipedia.org 的页面 就是最优的。