全文共2848字,预计学习时长6分钟
如果你上过统计学导论课,就会知道一个数据点可以激发灵感或者验证理论,但不能同时用于两种用途。这是为什么呢?
人类有点过于擅长从万物中寻找规律。找出的规律可能是真实的,也可能是虚假的。人类甚至能从薯片上看出流行歌手猫王的脸。如果想要从规律中获得真正的知识,记住区分三种数据规律:
· 存在于特定数据集中并且可以推广的规律/事实
· 只存在于特定数据集中的规律/事实
· 只存在想象中的规律/事实(过度关联错觉)
数据规律可能(1)存在于整个目标数据集中(2)只存在于一个样本中(3)只存在于你的想象中。
哪一种规律有用?这取决于你的目标。
灵感
如果只是在寻找灵感,这三种规律都很有用。甚至是过度关联(apopheny)——源于术语 apophenia,意指人类错误地在无关事物间寻找联系和意义的倾向——也能让灵感涌现。灵感没有标准答案,所以只需随心所欲地观察和摆弄数据。不过这只是额外的好处,尽量不要在这方面浪费太多自己或其他相关人员的时间。
事实
政府征收税款时只会关心公民本年度财务数据中的规律。它需要分析这些数据,基于事实判断你应该缴纳的税款。换言之,观察数据并对其套用公式。这被称作纯粹的描述分析,它只针对手头的数据。前两种规律都适用于这一目的。
1. 只针对手头数据的描述分析,不确定情况下的决策
有时发现的规律与预期不相符合。不具备做出决定所需的所有信息时,就需要探索不确定性来挑选合理的决策。
这就是统计学——一门在不确定条件下影响决定的科学——所研究的。它关心如何像伊卡洛斯一样超越已知,同时又不犯错以致落入水中。
2. 如何排除不重要的数据观察结论是数据科学的核心问题
开始之前,你最好希望在有限的观察中发现的规律也适用于观察范围外的数据。也就是说,有用的规律必须具有可推广性。
来源:xkcd
上述三种规律中只有第一种(可推广的)规律可以被用于在不确定条件下做出决策。不幸的是,数据中也可能发现其他两种规律。这就是数据科学的核心问题:如何排除不重要的数据观察结论。
推广
并非只有人类会从数据中提炼出无用的规律。如果不够小心,机器也可能犯同样的错误。
3. 机器学习/人工智能的用处是针对未知情况做出正确推论
机器学习可以在数据中通过计算找到规律并将其应用于新的数据,从而做出许多相似的决策。在机器学习/人工智能术语中,可推广性指的是模型处理新数据的能力。仅对已有数据奏效的规律性方案有什么用?一个查询表就能解决这个问题。机器学习/人工智能的用处在于针对未知情况做出正确推论。
这就是只有第一种规律可以应用于机器学习的原因。它是信号,而其他两种只是噪音(只存在于已知数据中的特殊规律,会阻碍你发现可推广的模型)
4. 信号:不只存在于特定数据集中的规律;噪音:只存在于特定数据集中的规律
实际上,找出处理旧数据而非新数据的解决方案在机器学习中被称为过拟合。(人们以咒骂的口吻说出这个词)机器学习领域的几乎一切努力都是为了避免过拟合。
所以这一规律属于哪一种?
假设你(或机器)发现的规律是真实存在的,它属于哪一种?它存在于希望研究的目标数据集中吗(信号)?或者只是目前拥有的数据集的特性(噪音)?如何判断发现的规律属于哪一种?
观察所有可用数据无法得出结论。你将困在其中,无从得知相同的规律是否存在于别处。整个统计假设检验都应该建立在未知的意外之上,不要假装惊讶地发现存在于数据中的已知规律。(那必然成为p值黑客。)
有点像看到兔子形状的云,然后使用同一朵云来检测是否所有的云都像兔子。希望你可以意识到,测试理论需要一些新的云。
5. 任何启发理论或问题的数据点都不能用于检测该理论的正确性
如果只能得到一张云的图片,那么可以做些什么?在扫帚壁橱里冥想,没错,就是这样。在观察数据之前先提出问题。
6. 数学永远不会违背基本常识
这导出了一个令人不快的结论。如果调用整个数据集来寻找灵感,就不能再用它来严格测试得到的理论(无论采取多少数学技巧,因为数学绝不会违背基本常识) 。
艰难的选择
这意味着你必须选择!如果只有一个数据集,你就不得逼问自己:“是在壁橱里冥想,思考所有的统计测试假设,然后仔细采取严格的检验方法,认真地对待呢?还是仅仅挖掘数据获取灵感,但不一定把结论当真,使用“我觉得”或“我不确定”之类的词来修饰结论?艰难的选择!
或者有没有办法在拥有一个蛋糕的同时把它吃掉?问题在于只有一个数据集,而你需要多个。如果数据量很大,笔者有办法解决问题。
一个神奇的技巧
想要在数据科学方面取得成功,只需通过拆分数据将一个数据集转换为(至少)两个。一个用于启发灵感,另一个用于严格测试。如果激发你灵感的规律也存在于另一部分数据中,那么这种模式很可能适用于全体数据。
7. 如果两个数据集中存在相同的现象,那么这个现象可能也普遍存在于它们来源的大数据集中
如果未经检验的生活不值得过,那么请靠着这四个词活下去:分割你该死的数据(Split Your Damned Data)。
如果每个人都对数据集进行分割,世界会更美好。人们将得到更好的答案(通过统计数据)和更好的问题(通过分析)。不强制分割数据集的唯一原因是,在上个世纪,这是一种难以负担的奢侈行为。数据集非常小,如果试图拆分它们,可能就什么也不剩了。
将数据拆分为一个用于启发灵感的探索性数据集和用于对处在研究阶段的发现进行严格检验的测试数据集。
今天有些项目仍然存在这个问题,特别是在医学研究中(笔者曾经涉猎神经科学领域,因此非常理解使用小型数据集的难度)。但是如今很多人都拥有大量数据,多到需要聘请工程师来移动它。那么还有什么理由不对数据进行分割?!不要吝啬,分割你的数据吧!
8. 不习惯分割数据的你可能还停留在20世纪
如果你已经获得了大量数据,但是仍然在研究未分割的数据集,那么你仍然止步于陈旧的观点。很多人满足于陈旧的思想,忘记与时俱进。
机器学习是数据分割的产物
讲到这里,本文的观点总结起来非常简单。使用一个数据集寻找结论,操纵镜头,然后像变魔术一样证明它在一个全新的数据集中同样成立。
9. 培养更健康的数据文化,数据分割是最简单快速的解决方案
这就是在安全范围内应用统计学,以及避免在机器学习/人工智能中因过度拟合而犯错的方式。事实上,机器学习的历史就是数据分割的历史。
如何应用最好的数据科学观念
要应用这一最好的数据科学观念,只要确保将一些数据置于分析范围之外,其余的全权交给分析师来处理。
10. 要在数据科学方面取得成功,只需拆分数据,将一个数据集转换为(至少)两个
如果认为分析师得出了可推广的有用发现,使用秘密测试数据来检查得出的结论。就这么简单!
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)