科学研究中的危机?机器学习已经成为一种“炼金术”?


全文共3991字,预计学习时长12分钟

图源:Unsplash

“目前人们普遍认识到科学中的可重现性危机。我敢说,这很大程度上是由机器学习技术的使用造成的。”
——莱斯大学统计与电气工程教授基尼维拉·艾伦 (Genevera Allen)

在科学过程中,机器学习的使用变得越来越普遍,取代了传统的统计方法。这对科学界和对知识的追求有什么影响?

 

有人认为,机器学习技术的黑箱法使科学研究陷入可再现性危机。毕竟,如果某种东西不可重现,那真的是科学的吗?

           

科学过程的循环

 

机器学习在科学研究中已经无处不在,并且在许多地方已经取代了传统的统计技术。虽然机器学习技术通常更易于执行分析,但是固有的黑箱法在追求真相时会导致出现严重的问题。

 

科学中的“可重现性危机”是指科学家尝试相同的实验时,数量令人震惊的研究结果不会重复出现。这可能意味着最初的结果是错误的。一项分析表明,世界上的所有生物医学研究中有多达85%是在浪费精力。

 

关于可重现性危机的辩论可能是学术界最接近机器学习和统计部门之间战争的辩论。

 

一位人工智能研究员在《科学》杂志上发表文章称,机器学习已成为一种“炼金术”。

 

机器学习很好地补充了科学过程,毫无疑问,最终会用于研究。可以认为机器学习是一项工程任务——就像具有建模、参数调整、数据准备和优化组件的装配线一样。机器学习的目的是找到最佳答案或预测,这是科学探究的一个小分支。

 

机器学习的类型和算法本身就是科学的主题。就像过去的统计方法一样,很多人在写关于机器学习算法的类型和子类型的研究论文。

 

在2019年2月,基尼维拉·艾伦在美国科学促进会上发出了严重警告,科学家正在依靠机器学习算法来查找数据中的模式,即使这些算法只是专注于不能在其他实验中重现的噪声。

 

机器学习在许多领域(例如,天文学、基因组学、环境科学和医疗保健)中获得新发现,这一挑战涉及到多个学科。

 

艾伦使用的主要示例是基因组数据,通常是难以置信的大型数据集,有数百GB或几TB。艾伦指出,科学家使用对机器学习算法知之甚少的基因组图谱进行聚类时,通常会产生似是而非的结果。

 

直到另一个团队进行了类似的分析,并发现非常不同的结果后,之前的结果才会被质疑和抹黑。这可能有多种原因:

 

·       缺乏关于算法的知识

·       缺乏数据知识

·       对结果的误解

 

缺乏算法知识

 

缺乏算法知识在机器学习中非常普遍。如果你不了解算法是如何产生结果的,那么如何确定该算法没有欺骗性,又如何发现变量之间的虚假相关性?

 

由于参数过多(对于深度神经网络,通常为数百万个),这在神经网络中是一个巨大的问题。这些参数不仅会计数,而且还会计算超参数——包括诸如学习速率、初始化策略、时期数和网络体系结构之类的项。

 

意识到自身缺乏算法知识不足以解决问题。如果不同的研究论文使用不同的网络,你会如何比较结果?由于高维神经网络损失情况的高度复杂性和动态结构,即使添加单个额外变量或更改一个超参数也可能对结果产生重大影响。

图源:Unsplash

缺乏数据知识

 

数据知识的缺乏也是一个巨大的问题,但这一问题已扩展到传统的统计技术。数据获取中的错误(例如量化错误,传感器的不确定性和代理变量的使用)是主要问题之一。

 

次优数据始终是个问题,但是了解对哪种数据使用哪种算法也非常重要,并且可能对结果产生重大影响。检查简单回归可以清楚地说明这一点。

 

如果大家使用的线性回归参数比数据点多(基因组学中非常正常的情况,有很多基因,数据点很少),那么选择的正则化将对“重要”参数的确定有很大的影响。

 

如果我们使用LASSO回归,则趋向于让明显不重要的变量为零,从而从回归中消除它们并提供一些变量选择。

 

如果采用岭回归,则回归往往会将这些参数缩到足够小以至于可以忽略不计,但必须从数据集中删除它们。

 

如果使用Elastic Net回归(LASSO和山脊回归的组合),将再次获得截然不同的答案。

 

如果不使用任何回归,则会因为拥有的变量多于数据点,因此该算法显然会过拟合数据,因此该算法将轻易拟合所有数据点。

 

显然,通过线性回归,可以进行统计检验评估p检验、置信区间等形式的准确性。但是,神经网络不具有相同的优势,那么如何确定结论呢?目前能做的最好的就是陈述模型的确切架构和超参数,并提供代码作为开源代码,供其他科学家分析和重用模型。

 

对结果的误解

 

对结果的误解在科学界很常见。其中一个原因是相关性并不意味着因果关系——有两个原因可能导致两个变量A和B的相关联:

 

·       A可能是由B的发生引起的

·       B可能是由A的发生引起的

·       A和B可能是由另一个混杂变量C引起的

·       A和B可能是虚假关联的

 

显示两个值之间的相关性容易,但是确定此类结果的因果关系极为困难。通过在谷歌中搜索虚假关联,你可以得出一些非常有趣且明显荒谬的关联,这些关联具有统计意义:

这些相关性看似荒谬,但重要的是,若将这些变量放到提供给机器学习算法的数据集中,则该算法将接受此为因果变量,而不会对有关所述因果关系的有效性有任何疑问。

 

从这个意义上讲,该算法很可能是不正确或错误的,因为该软件正在识别仅在该数据集中存在,而在现实世界中不存在的模式。

 

由于使用了具有数千个变量的大型数据集,近几年来,虚假相关出现得更加频繁。

 

如果有上千个变量和数百万个数据点,那么数据之间会有一些关联是不可避免的。算法可以锁定这些因素并承担因果关系,有效地执行无意识的P值操控(p-hacking),这是学术界不支持的一种技术。

 

什么是P值操控?

 

P值操控的做法包括获取数据集并详尽搜索具有统计学意义的相关性,并视其为科学有效的。

 

拥有的数据越多,越有可能在两个变量之间找到虚假的相关性。

 

科学包括假设的形成、数据的收集和数据的分析,以确定假设是否有效。P值操控所做的是进行一个实验,然后形成事后假设以解释所获得的数据。有时,这样做是没有恶意的,但是其他时候,科学家这样做是为了发表更多论文。

 

加强关联

 

机器学习算法的另一个问题是算法必须做出预测。该算法不能给出这样的结果:“什么都没找到”。这种脆弱的框架意味着,无论给定的功能多么不合适,算法都会找到某种解释数据的方法(只要算法和数据已正确设置,否则可能无法聚合)。

 

目前,还没有机器学习算法能够返回给用户,反馈数据不合适的信息,这是一个隐含的预设,是科学家的工作——不是一个不公平的假设。

 

为什么要使用机器学习呢?

 

这是一个好问题。机器学习使数据集分析变得更加容易,并且机器学习算法为用户完成了大量工作。在数据集太大、无法使用标准统计技术进行有效分析的领域,机器学习变得非常宝贵。但是,尽管它提高了科学家的工作效率,但机器学习所带来的生产率提高却可以被这些预测的质量所抵消。

 

该怎么办?

 

这并不是厄运,请不要忧郁。传统的统计方法和数据集一直存在相同的问题。通过一些虽比传统技术难掌握但可以自动找到相关性的大型数据集及算法将这些问题放大,过程中会暴露科学过程中的弱点,而且是必须要克服的。

 

不过,下一代机器学习系统正在研发中,以确保它们能够评估其预测的不确定性和可重复性。

 

话虽这么说,这就是一个技不如人的工作者将失败的原因归咎于工具,科学家们在使用机器学习算法时需要格外小心,以确保他们的研究得到证实和验证。同行评审过程旨在确保这一点,但这也是每个研究人员的职责。研究人员需要了解使用的技术并了解其局限性。如果他们不具备这些专业知识,那么赶紧拜访统计部门与教授讨论吧,会收获颇丰的(就像笔者自己做的那样)。

 

拉希米(他认为机器学习是炼金术的一种)为机器学习提供了一些建议,说明何种算法最有效,何时最佳。

图源:Unsplash

他指出研究人员应该进行模型简化测试——依次删除参数以评估其对算法的影响。拉希米还呼吁进行切片分析——分析算法的性能,以了解如何在某些方面做出改进,以及所需成本。

 

最后,他建议运行具有各种不同超参数设置的算法,并报告所有算法的性能。这些技术将为使用机器学习算法的数据提供更强大的分析。

 

由于科学过程的性质,一旦这些问题得到解决,以前被发现是准确的关系,事实上是虚假的,最终会被发现和纠正。准确的关系当然会经受时间的考验。

 

最后评论

 

由于缺乏结果的可重复性,在学术界,科学中的机器学习确实存在一些问题。但是,科学家意识到了这些问题,并且正在朝着更具再重现性和可解释性的机器学习模型发展。神经网络一旦完成,就是真正突破之时。

 

基尼维拉·艾伦强调了机器智能面临的一个基本问题:数据科学家仍不了解机器学习的机制。科学界必须齐心协力,以了解这些算法如何工作,如何最好地使用它们,以确保使用数据驱动的方法得出可靠、可重复和科学有效的结论。

图源:Unsplash

甚至声称机器学习是炼金术的拉希米仍然对其潜力充满希望。他指出,“炼金术发明了冶金学,是制造药物的方法,是纺织品染色的技术,也推动现代的玻璃制造工艺的发展。再者,炼金术士还相信他们可以将贱金属炼成金,而水是治疗疾病的好方法。”

 

正如物理学家理查德·费曼(Richard Feynman) 于1974年在加利福尼亚理工学院的毕业典礼上所说的那样,

“(科学的)首要法则是:你绝不能愚弄自己,而你自己却是最容易被愚弄的人。”

免责声明:本文是笔者根据参考文献中引用的材料提出的观点。这是一个在学术界有争议的领域,欢迎进行建设性辩论。

推荐阅读专题

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:余书敏、孙梦琪

相关链接:

https://towardsdatascience.com/the-machine-learning-crisis-in-scientific-research-91e61691ae76

如需转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值