2020-11-17

人工智能的到来,凸显了机器学习、数据挖掘的地位,当人工智能涉及到传统的统计学分析的领域时,自然也产生了很多分歧,研究人员经常困惑的问题是:数据挖掘中是否要做假设检验?其实本质可以理解跨领域导致的,因为大多从事人工智能的人没有足够的统计分析经验。这篇文章就给大家深度剖析一下。

       剖析思路主线:从“真正意义上理解什么是假设检验”出发,懂得“做经典假设检验的真正目的是什么”,之后顺理成章的得到“数据挖掘中是否要做经典假设检验”。另外讲一下“什么情况下需要做经典假设检验”。

 一、真正意义上理解什么是假设检验   

       1、搞清楚什么是假设检验前,我先抛出两个概念:假设检验、经典假设检验

       假设检验其实是统计学中一个统计推断的方法。目的是根据观测数据判断数据所属的群体的统计特征——我们人为地测试一些假说,看看是不是符合。

       经典假设检验是我们常见的或者说常用到的t-test,Z-test、t-test,F-test,Chi-square test等。因为这些检验通常都要求样本先验地符合正态分布,而假设检验的方法本身并不要求这一点,所以我们我们把假设检验和经典假设检验区分开来。

      2、某种程度上,机器学习也可以理解为一种假设检验。

       经典的test平时都挺好用,但是随着数据的积累,上述这些test其实都会逐个失效——低维数据可能还可幸免,高维空间里能有多少数据符合正态分布啊。随着知识的积累,你完全可以给出更好的检验统计,也就是说要跳出经典假设检验使用更广意的假设检验。

       面对复杂的样本对象,大多数情况下,不要说正态分布,一个良定义的分布都不一定刻画得出来(比如PCA降维后的数据可以看下)。这种情况下,经典假设检验很难显性地表述,所以我们尝试更好的办法,机器学习就是这种情况下探索出来的新方法。而机器学习不可避免的应用到假设检验的思想,做prediction的本质上都是为了做预测(统计)推断,所以某种程度上,机器学习也可以理解为一种假设检验。

二、做经典假设检验的真正目的是什么

       总的来说,传统统计学的目的是,由有限的样本推断总体分布,因为统计学家们相信,有了总体就有了一切。

       在以前数据非常匮乏的时候,统计学家如何发现规律,而非发现巧合?于是基于各种假设的参数估计/假设检验应用而生,如什么时候样本均值可以用于估计总体期望,某一参数估计的置信区间到没到95%,这一切都是为了在样本量非常小的情况下(样本量>30对于传统统计来说都算大样本了!),保证模型的置信度。

三、数据挖掘中是否要做经典假设检验

       首先,经过上面的理解,我们原始的问题似乎应该调整为:数据挖掘中是否要做经典假设检验。 问题明确后,答案也才更精准。

       1、机器学习本身不需要对有关变量之间的潜在关系提出先验假设。

      上面我们说,某种程度上,机器学习也可以理解为一种假设检验。但机器学习还是区别于经典假设检验的。机器学习是数据驱动的算法,目的在于学习与预测,保证了在有限/无限的假设空间(即将要学习的映射空间)下,我们可以近似正确(error是被某一常数bounded的,可以理解为误差收敛)地学习到一个可以完成任务的映射(即我们常说的模型)。而误差的收敛速度是与样本量成正的,即样本量越大,误差收敛速度越快。所以机器学习本身不需要对有关变量之间的潜在关系提出先验假设。研究人员只需要将所有的可用数据导入模型,等待算法的分析并输出其中的潜在规律,然后将这一规律应用于新数据进行预测就可以了。

       2、工业领域中的两种态度

       A、严谨派:尽管机器学习不缺数据,但在工业领域,哪怕算法性能再强,可靠性分析都是不可缺少的步骤。而从贝叶斯统计的角度来说,通过了假设检验的话,若显著性水平是5%,就意味着我有95%的把握结论是正确的。所以做了假设检验有助于确保结论的正确性。

      论文方面:从科学的角度讲,你说你好,你得充分地证明吧,无论经验上还是理论上,确保结论的正确性。

       B、创新派:对于现实中的很多做数据分析的人而言,做假设检验等于是在束缚自己。机器学习的目的是预测, 强加一堆统计学的假设只会降低模型预测能力。很多paper卖的是idea,看着好玩就行,至于真的效果,就看用的人给不给力了。

      论文方面:很多paper卖的是idea,看着好玩就行,至于真的效果,就看用的人给不给力了。实际ml paper很少做假设检验的,如果这么做,没几个“大新闻”了。

       总结:要根据实际从事领域而定,像医学领域当然更需要的是严谨;如果是推荐系统这类创新型的,则完全没必要束缚自己。

四、数据挖掘什么情况下需要做经典假设检验

     1、数据量并不多的情况

       数据量少时,数据本身就不足以代表整体,机器学习得到的映射也只是‘局部映射’,自然模型也只是‘局部模型’。如果通过了经典的假设检验,才能证明所得模型的泛化预测能力。尤其在医学领域尤其是临床领域,大数据的时代还没有到来。无论一家公司,机构有多么财大气粗,临床研究里的患者数总体来说是十分有限的。假设检验在临床研究里还会被使用很长一段时间。

     2、工业领域严谨性的需要

       严谨性需求高的领域,论文的审稿意见经常会有这么一条:“必须做统计检验”。

    

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值