讲座分享｜加州大学伯克利分校&香港大学马毅教授《The Past, Present, and Future of Artificial Intelligence》

_Meilinger_

已于 2023-12-22 13:10:07 修改

阅读量659

点赞数

分类专栏：参会记录文章标签：人工智能 chatgpt 压缩感知马毅高维数据可解释灾难性遗忘

于 2023-12-07 22:15:47 首次发布

本文链接：https://blog.csdn.net/qq_36332660/article/details/134864964

版权

参会记录专栏收录该内容

17 篇文章

订阅专栏

马毅教授的讲座探讨了AI历史、生成式AI的感知与预测、高维数据压缩的重要性、数学可解释的白盒Transformer模型CRATE，以及神经网络的灾难性遗忘解决方案。他还强调了科学方法在AI中的应用和世界模型在强化学习中的角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言：2023年12月7日，有幸在线下聆听了马毅教授的讲座，收获颇丰，谨以此篇博文记录之。

在这里插入图片描述

从历史中找未来

马老师从AI的发展历程展开，从达特茅斯会议讲到ChatGPT，在他幽默的言谈中，能够切实感受到他对人工智能发展的历史脉络具备非常大局观的把控。

讲座期间，马老师提到他与哥伦比亚大学电气工程系副教授 John Wright 合著的「高维数据压缩感知」书籍《High-Dimensional Data Analysis with Low-Dimensional Models: Principles, Computation, and Applications》，这本书他与合著者前前后后共写了七年，最后在疫情期间完成。书中最后一章关于深度网络的结束语就是：We learn to compress, and we compress to learn! 这就恰恰印证了诺贝尔物理学奖获得者 Richard Phillips Feynman 说过的那句话：“What I cannot create, I do not understand.” 某乎上有个回答对这句话的解读就是“知行合一”，换句话说，人只有对自己创造出来的事物才算真正的理解。

「感知」与「预测」的博弈

如果用 AI 比较拿手的分类问题类比人类的感知功能（触觉，味觉，嗅觉，听觉，视觉），那么最近大火的生成式 AI 则对应人类大脑中的预测功能。人脑两大十分重要的功能，一正一反，这个角度也是我从来没思考过的，有点博弈的思想了（是不是GAN提出的灵感呢 🤔）。

高维数据压缩的必要性

我们之所以要对高维数据进行压缩，就是因为这个世界有章可循。比如天气预报之所以存在，就是因为天气在一定程度上的可预测性，而且一些天气的产生与季节等因素直接相关（例如，只有冬天才会下雪），这就为数据压缩提供了“先决条件”。世界的规律性，使得记忆成为必需品如果世界是混沌不堪的，没有章法的，那我们何不过一天算一天，大可不必费尽周章去记录过去，或是使用现有的科技感知未来。

又是一个我前所未闻的观点～从世界所具备的规律性出发，引出数据压缩的必要性。

数学可解释的白盒Transformer模型CRATE

以往的神经模型是一个黑箱，这意味着我们在使用这些模型时并不了解模型的运行机理，这些不可控因素催生了「AI威胁论」等言论的产生。讲座中，马老师提到，“Intelligence 和 Science 在做同样的事情，只是机制不同。”那么，是不是可以把神经网路的功能，使用Scientific的方式得到呢？

答案是肯定的。CRATE 是马老师团队在 NeurIPS 2023 发布的一项最新研究成果，设计了一个数学可解释的白盒Transformer模型CRATE，并且性能接近ViT效果，同时图灵奖得主Yann LeCun对马毅教授的工作也表示赞同。这一工作是对AI可解释性短板的弥补。马老师提到，ResNet、Transformer、U-CTRL和MoCoV2 等模型全部在做一件事：把高维空间的数据压缩到低维空间，这就体现了压缩和智能的关系密不可分。

神经网络的灾难性遗忘

马老师团队在ICLR 2023 的一篇文章中提出通过闭环转录学习高维数据里的低维结构，以此来解决神经网络的灾难性遗忘问题。

所谓灾难性遗忘，就是一个在原始任务上训练好的神经网络在训练完新任务后，在原始任务上的表现崩溃式的降低。来源（感觉这个灾难性遗忘问题和AI安全领域的后门攻击有些交叉，后者是要求在向神经网络植入后门的同时，要保证模型在原始任务上的表现基本保持不变。）

世界模型

世界模型这个概念是8月份听组长提了一嘴，后来一查发现是2018年已经提出的概念，今天又在马老师的讲座中见到，感觉有点熟悉。查了一下世界模型主要用在自动驾驶里的，不太熟悉就不展开了。

世界模型（World Model）首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出，主要出发点是打造一个通用强化学习环境的生成神经网络模型，为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。来源

（查了一下马老师的谷歌学术，Most cited 的文章是与稀疏表示相关的，和压缩感知也有些关系吧 🤔 不太了解这一领域 🥱）
在这里插入图片描述

后记：马老师在本场讲座中的很多观点都是我迄今为止没有涉及甚至从未听说过的领域，他思考的维度和深度也值得我学习。不得不感叹还是要多听讲座，不然眼光会变得狭隘、shallow、limited……最后，以马老师嘱托年轻人的话作为结尾：“不要盲目跟风追赶潮流，we’are barely started. ” Time to open the black box and close the loop for intelligence!

在这里插入图片描述