文章目录
何恺明最近在香港中文大学参加一个讲座过程中所述:
1. 大模型的未来:数据效益是个问题
Q:您刚刚(演讲)展示的图片,呈现了深度网络加深时,性能先上升后下降的趋势。
起初人们可能误认为是过拟合导致的,就增加数据量,问题确实得到了改善。但又发现当神经网络真的非常深入时,性能还是会再次下降。而你的研究揭示了这其实与某种优化并不是最佳解决方案有关,基本上涉及三大要素:数据量、网络深度、模型复杂度及其优化方式。
考虑到现如今的大模型数据量比以前要大得多,那么您认为可能存在哪些局限性?或者接下来应该如何应对数据模型复杂性和优化带来的挑战?
何恺明:通常,我们认为增加网络的深度和宽度是提高神经网络模型性能的方法。而在机器学习中,拟合与泛化之间存在权衡,也就是说要实现适当的拟合并减少过拟合。
目前要想减少过拟合、提高泛化,最有效的方法就是增加数据量。
虽然大量数据的拟合和记忆仍是一个挑战,但大模型其实有足够的能力做到这一点,事实也证明增加数据量是减少过拟合的最佳解决方案。
然而展望未来,数据带来的效益是否会降低是个问题。
比如说,语言数据不是凭空产生的,而是由人类创造出来的。你在写一些新的文本时,是带有想分享信息、创作新知识等某种目的的。所以文本数据中的信息可能比许多其它形式的数据中的信息都要更丰富。
而一张新的照片可能并不会增加太多新的信息。尽管它看起来可能包含更多的信息,但实际上你每天用手机拍摄的内容也许只是你的食物或是自拍。
所以不同类型的数据所含信息量不同,继续增加数据的回报可能会有所减少。我认为这将是未来的一个开放性的问题。
Q:您提到如今深度学习像是残差学习已广泛应用于多个领域,例如AlphaGo和AlphaFold等。
回顾一二十年前,研究人员会专注于研究每一个具体的小问题,手动设计各种算法。但现如今,大部分问题都是由更通用的模型来学习解决的。
那么您认为未来的发展趋势是会出现一个能够处理大多数任务的大型预训练模型,而我们只需对其进行微调来适应特定的任务?还是说仍然有一些问题需要手动设计或用更具体的领域知识来解决?
何恺明:我认为这两个方向将会同步发展。
在自然语言处理中,预训练模型基本上是默认方法。但在计算机视觉领域,情况稍有不同,因为人们还没有提出一个好的想法来开发所谓的视觉基础模型。
这或许是因为视觉任务更为多样化,而且更重要的是,语言是人类智慧的产物,而像素则来自于自然,这是语言和图像之间的本质区别。
展望未来,我们希望神经网络能够处理更多的问题,比如科学问题、蛋白质、分子、材料,甚