2020-11-17

最新推荐文章于 2022-11-23 00:44:13 发布

Li_yi_chao

最新推荐文章于 2022-11-23 00:44:13 发布

阅读量279

点赞数

本文链接：https://blog.csdn.net/Li_yi_chao/article/details/109741592

版权

人工智能的到来，凸显了机器学习、数据挖掘的地位，当人工智能涉及到传统的统计学分析的领域时，自然也产生了很多分歧，研究人员经常困惑的问题是：数据挖掘中是否要做假设检验？其实本质可以理解跨领域导致的，因为大多从事人工智能的人没有足够的统计分析经验。这篇文章就给大家深度剖析一下。

剖析思路主线：从“真正意义上理解什么是假设检验”出发，懂得“做经典假设检验的真正目的是什么”，之后顺理成章的得到“数据挖掘中是否要做经典假设检验”。另外讲一下“什么情况下需要做经典假设检验”。

一、真正意义上理解什么是假设检验

1、搞清楚什么是假设检验前，我先抛出两个概念：假设检验、经典假设检验

假设检验其实是统计学中一个统计推断的方法。目的是根据观测数据判断数据所属的群体的统计特征——我们人为地测试一些假说，看看是不是符合。

经典假设检验是我们常见的或者说常用到的t-test，Z-test、t-test，F-test，Chi-square test等。因为这些检验通常都要求样本先验地符合正态分布，而假设检验的方法本身并不要求这一点，所以我们我们把假设检验和经典假设检验区分开来。

2、某种程度上，机器学习也可以理解为一种假设检验。

经典的test平时都挺好用，但是随着数据的积累，上述这些test其实都会逐个失效——低维数据可能还可幸免，高维空间里能有多少数据符合正态分布啊。随着知识的积累，你完全可以给出更好的检验统计，也就是说要跳出经典假设检验使用更广意的假设检验。

面对复杂的样本对象，大多数情况下，不要说正态分布，一个良定义的分布都不一定刻画得出来（比如PCA降维后的数据可以看下）。这种情况下，经典假设检验很难显性地表述，所以我们尝试更好的办法，机器学习就是这种情况下探索出来的新方法。而机器学习不可避免的应用到假设检验的思想，做prediction的本质上都是为了做预测（统计）推断，所以某种程度上，机器学习也可以理解为一种假设检验。

二、做经典假设检验的真正目的是什么

总的来说，传统统计学的目的是，由有限的样本推断总体分布，因为统计学家们相信，有了总体就有了一切。

在以前数据非常匮乏的时候，统计学家如何发现规律，而非发现巧合？于是基于各种假设的参数估计/假设检验应用而生，如什么时候样本均值可以用于估计总体期望，某一参数估计的置信区间到没到95%，这一切都是为了在样本量非常小的情况下（样本量>30对于传统统计来说都算大样本了！），保证模型的置信度。

三、数据挖掘中是否要做经典假设检验

首先，经过上面的理解，我们原始的问题似乎应该调整为：数据挖掘中是否要做经典假设检验。问题明确后，答案也才更精准。

1、机器学习本身不需要对有关变量之间的潜在关系提出先验假设。

上面我们说，某种程度上，机器学习也可以理解为一种假设检验。但机器学习还是区别于经典假设检验的。机器学习是数据驱动的算法，目的在于学习与预测，保证了在有限/无限的假设空间（即将要学习的映射空间）下，我们可以近似正确（error是被某一常数bounded的，可以理解为误差收敛）地学习到一个可以完成任务的映射（即我们常说的模型）。而误差的收敛速度是与样本量成正的，即样本量越大，误差收敛速度越快。所以机器学习本身不需要对有关变量之间的潜在关系提出先验假设。研究人员只需要将所有的可用数据导入模型，等待算法的分析并输出其中的潜在规律，然后将这一规律应用于新数据进行预测就可以了。

2、工业领域中的两种态度

A、严谨派：尽管机器学习不缺数据，但在工业领域，哪怕算法性能再强，可靠性分析都是不可缺少的步骤。而从贝叶斯统计的角度来说，通过了假设检验的话，若显著性水平是5%，就意味着我有95%的把握结论是正确的。所以做了假设检验有助于确保结论的正确性。

论文方面：从科学的角度讲，你说你好，你得充分地证明吧，无论经验上还是理论上，确保结论的正确性。

B、创新派：对于现实中的很多做数据分析的人而言，做假设检验等于是在束缚自己。机器学习的目的是预测，强加一堆统计学的假设只会降低模型预测能力。很多paper卖的是idea，看着好玩就行，至于真的效果，就看用的人给不给力了。

论文方面：很多paper卖的是idea，看着好玩就行，至于真的效果，就看用的人给不给力了。实际ml paper很少做假设检验的，如果这么做，没几个“大新闻”了。

总结：要根据实际从事领域而定，像医学领域当然更需要的是严谨；如果是推荐系统这类创新型的，则完全没必要束缚自己。

四、数据挖掘什么情况下需要做经典假设检验

1、数据量并不多的情况

数据量少时，数据本身就不足以代表整体，机器学习得到的映射也只是‘局部映射’，自然模型也只是‘局部模型’。如果通过了经典的假设检验，才能证明所得模型的泛化预测能力。尤其在医学领域尤其是临床领域，大数据的时代还没有到来。无论一家公司，机构有多么财大气粗，临床研究里的患者数总体来说是十分有限的。假设检验在临床研究里还会被使用很长一段时间。

2、工业领域严谨性的需要

严谨性需求高的领域，论文的审稿意见经常会有这么一条：“必须做统计检验”。

Li_yi_chao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-11-17

人工智能的到来，凸显了机器学习、数据挖掘的地位，当人工智能涉及到传统的统计学分析的领域时，自然也产生了很多分歧，研究人员经常困惑的问题是：数据挖掘中是否要做假设检验？其实本质可以理解跨领域导致的，因为大多从事人工智能的人没有足够的统计分析经验。这篇文章就给大家深度剖析一下。剖析思路主线：从“真正意义上理解什么是假设检验”出发，懂得“做经典假设检验的真正目的是什么”，之后顺理成章的得到“数据挖掘中是否要做经典假设检验”。另外讲一下“什么情况下需要做经典假设检验”。一、真正意义上理解什么...
复制链接

扫一扫