诺贝尔物理学奖新篇章:AI之父的非凡成就与物理学的不解之缘!

2024 年 10 月 8 日北京时间 17 时 45 分许,约翰·J.霍普菲尔德 (John J. Hopfield) 和杰弗里·E.欣顿(Geoffrey E. Hinton)**因奠定借助统计物理学思想训练人工神经网络的基础,获得 2024 年诺贝尔物理学奖。**辛顿在接受电话采访时表示,我没有想到(I have no idea that will happen)。

2024年的诺贝尔奖单项奖金为1100万瑞典克朗,与2023年持平,合人民币744.117万元。

约翰·J.霍普菲尔德是美国物理学家、神经科学家,普林斯顿大学教授。霍普菲尔德 1933 年出生于美国伊利诺伊州,1958 年获得康奈尔大学博士学位。他在 1982 年发明了著名的霍普菲尔德神经网络(Hopfield neural network),这是第一个能够储存多种模式,并具备记忆功能的神经网络模型,是神经网络发展早期的一座重要的里程碑。霍普菲尔德神经网络的诞生为递归神经网络的发展铺平了道路,其提出的能量最小化原理,对于解决优化问题产生了深远影响。

杰弗里·E.欣顿是英裔加拿大计算机科学家、神经科学家,加拿大多伦多大学教授,前“谷歌大脑”负责人。欣顿 1947 年出生于英国伦敦,1978 年获得爱丁堡大学人工智能博士学位。欣顿是神经网络早期(且一直没有放弃)的重要研究者之一。20 世纪 80 年代,他为将反向传播算法(backpropagation)引入多层神经网络训练做出了重要贡献, 并发明了“玻尔兹曼机”——一种在霍普菲尔德神经网络的基础上发展而来的随机递归神经网络。在 2012 年,欣顿及两位学生 Alex Krizhevsky、Ilya Sutskever 发明的AlexNet在计算机视觉竞赛 ImageNet 中以压倒性优势取得冠军,创造了深度神经网络发展的里程碑,并激发了大量采用卷积神经网络(CNN)和图形处理器(GPU)加速深度学习的研究。欣顿与 Yoshua Bengio 和 Yann LeCun 并称为“深度学习三巨头”、“AI教父” ,共同获得 2018 年图灵奖。2023 年 5 月,在ChatGPT横空出世半年后,欣顿宣布从谷歌辞职,以便能够“自由地谈论人工智能的风险”。他对人工智能的恶意滥用、其引发的技术性失业以及人类的生存风险表达了深切的担忧。

许多人已经体验过计算机翻译语言、解释图像,甚至进行合理对话的能力。然而,不太为人所知的是,这种技术对科学研究更加重要,包括对大量数据的分类和分析。一种名叫人工神经网络(artificial neural network)的结构,推动机器学习在过去十五到二十年间迅猛发展。如今人们谈论的人工智能,一般指的就是这种技术。

尽管计算机不能思考,但机器可以模仿记忆和学习等功能。今年的诺贝尔物理学奖得主为此做出了贡献。他们利用物理学的基本概念和方法,开发出了利用网络结构处理信息的技术。

机器学习系统与传统软件不同。传统软件的工作方式类似食谱:软件接收数据,按照明确的描述进行处理,并生成结果,就像一个人采购食材,并按照食谱加工成蛋糕一样。相反,在机器学习中,计算机通过一个个例子进行学习,使其能够处理那些模糊且复杂到无法通过人类的逐步指令来处理的问题。一个典型的例子就是解读图片,并识别其中的物体。

模仿大脑

人工神经网络利用其全部网络结构来处理信息。起初,研究神经网络的科学家只是想要理解大脑的工作机制。20世纪40年代,研究人员已经开始探索大脑神经元和突触网络背后的数学原理。此外,心理学领域也为这一领域提供了重要线索,神经科学家 Donald Hebb 的假设指出,学习之所以发生,是因为当神经元共同工作时,它们之间的连接得到了加强。

随后,科学家循着这样的想法,通过计算机模拟构建了人工神经网络,从而重现大脑网络的功能。在这些模拟中,节点构成了大脑的神经元,每个节点被赋予不同的值,而突触则由节点之间的连接表示,这些连接可以被加强或削弱。Donald Hebb 的假设至今仍是通过训练来更新人工网络的基本规则之一。

20 世纪 60 年代末,一些令人沮丧的理论结果导致许多研究人员怀疑这些神经网络永远不会真正有用。然而,到了 20 世纪 80 年代,一些重要思想(包括今年两位获奖者的工作)产生的影响,重新点燃了人们对人工神经网络的兴趣。

联想记忆

想象一下,你试图回忆一个相当不寻常且很少使用的词,比如用于描述电影院或者无障碍通道中那种倾斜地面的词汇。你在脑海中搜寻:它有点像斜面(ramp)……或许是滑坡(radial)?不,不是。对了,是斜坡(Rake)!

这种通过搜索相似词来找到正确词汇的过程,让人联想到物理学家约翰·霍普菲尔德(John hopfield)于 1982 年发现的联想记忆模型。霍普菲尔德神经网络能够存储模式,并且可以重现这些模式。当网络接收到一个不完整或稍有失真的模式时,该方法能够找到与之最相近的已存储模式。

霍普菲尔德运用其在物理学领域的背景,探究了分子生物学中的理论问题。有一次,他受邀参加一场关于神经科学的会议,接触到了有关大脑结构的研究。会议内容令他着迷,并让他开始思考简单神经网络的动力学特性。当神经元共同作用时,它们能产生新的、强大的特性,如果你只关注网络中的每一个独立神经元,是很难察觉这些特性的。

1980 年,霍普菲尔德离开了彼时就职的普林斯顿大学,他的研究兴趣已超越了物理学同僚们的研究领域。他接受了加州理工学院(Caltech)在南加州帕萨迪纳的化学与生物学教授职位。在那里,他得以利用学校的计算机资源进行免费实验,并发展他对神经网络的构想。

然而,他并未放弃自己的物理学基础,还从中汲取了灵感,理解了由众多协同工作的小组件构成的系统如何产生新的有趣现象。他尤其受益于具有特殊特性的磁性材料,这些特性源于其原子自旋——一种使每个原子成为微小磁体的性质。相邻原子的自旋会相互影响,这使得自旋方向一致的区域得以形成。他利用描述自旋相互影响时材料特性如何变化的物理学原理,构建了一个包含节点和连接的模式网络。

网络用“地形”保存图像

霍普菲尔德构建的神经网络中,节点与节点之间连接的强度是不同的。每个节点可以存储一个单独的值——在霍普菲尔德的早期工作中,这个值可以是 0 或 1,就像黑白照片中的像素一样。

霍普菲尔德用物理学中的自旋能量来描述这个网络的整体状态。能量是通过一个公式计算的,该公式利用了所有节点的值和它们之间所有连接的强度。霍普菲尔德神经网络通过将图像输入到节点中进行编程,节点被赋予黑色(0)或白色(1)的值。然后,能量公式会调整网络的连接,使得存储的图像能量更低。当另一个模式输入到网络中时,程序会依照特定规则遍历每个节点,看看如果改变该节点的值,网络的能量是否会降低。如果发现将黑色像素变为白色会降低能量,则改变其颜色。这个过程会持续进行,直到能量再也无法降低。当实现这一点时,网络通常已经能重现训练时所用的原始图像。

如果你只存储一种模式,这可能看起来并不那么惊人。你可能会想,为什么不直接保存图像本身,然后与要测试的另一幅图像进行比较呢?但霍普菲尔德的方法之所以特别,是因为它可以同时存储多幅图像,并且经常能通过网络区分它们。

霍普菲尔德将在网络中搜索特定保存状态的过程比作“一个小球在山丘和山谷之间滚来滚去”,滚动的球因摩擦而减慢。如果球从一个特定位置被放下,它将滚入最近的谷底并停在那里。如果给网络输入的模式接近某个已经被存储的模式,它将以同样的方式继续前进,直到到达能量景观中某个谷底,从而找到记忆中最接近的模式。

霍普菲尔德神经网络可以用来重现包含噪声或被部分擦除的数据。图片来源:Johan Jarnestad/The Royal Swedish Academy of Sciences

霍普菲尔德等人继续深入研究了霍普菲尔德神经网络功能的细节,包括可以存储任何值的节点,而不仅仅是0或1。如果你将节点视为图片中的像素,它们可以有不同的颜色,而不仅仅是黑色或白色。改进后的方法使得存储更多图片并区分它们成为可能,即使这些图片非常相似。只要信息是由许多数据点构建的,识别或重构任何信息都是可能的。

十九世纪物理学分类法

记住图像是一回事,但理解一张图像的意思需要再多一点点努力。

即使是年幼的孩子也能自信地分辨出一只动物是狗、猫还是松鼠。起初小孩可能会偶尔出错,但很快他们就可以做到几乎每次都正确。即使没有看到任何关于物种或哺乳动物等概念的图表或解释,小孩也能学会这一点。在接触过每种动物的几个例子后,孩子便会逐渐明晰不同的动物类别。通过观察、体验周围的环境,人们能学会识别猫,或理解一个单词,或进入房间并注意到有些东西发生了变化。

当霍普菲尔德发表关于联想记忆的论文时,杰弗里·欣顿(Geoffrey E. Hinton)正在美国卡内基梅隆大学(Carnegie Mellon University)工作。他曾在英格兰和苏格兰学习实验心理学和人工智能,当时他就思考:机器是否能像人类一样学会处理模式,自行分类和解读信息。欣顿与同事Terrence Sejnowski一起,从霍普菲尔德神经网络出发,结合统计物理学的思想,扩展并构建了新的模型。

统计物理学描述由许多相似元素组成的系统,例如气体中的分子。追踪气体中所有独立分子的行为是非常困难的,甚至可以说是不可能的。但我们可以将所有分子视作一个整体,从而确定气体的总体特性,如压力或温度。气体分子各自以不同的速度在一定体积内扩散,但仍能产生相同的集体特性,这其中有许多潜在的方法。

统计物理学可以分析各个组件能够共同存在的各种状态,并计算它们出现的概率。有些状态比其他状态更有可能发生,这取决于可用能量的多少,19 世纪物理学家路德维希·玻尔兹曼(Ludwig Boltzmann)曾用方程来描述这种行为。而欣顿的网络正是利用了这一方程。1985 年,他以“玻尔兹曼机”这一引人注目的名称发表了这一神经网络。

识别同类新例

玻尔兹曼机通常使用两种不同类型的节点:一种节点接受信息,被称为可见节点;另一种节点构成隐藏层,隐藏节点的值及其连接也会影响整个网络的能量。

这种机器通过逐一更新节点值的规则运行。最终,玻尔兹曼机将进入这样一种状态:节点的模式可以变化,但网络的整体性质保持不变。根据玻尔兹曼方程,每种可能的模式都有由网络能量决定的特定概率。当机器停止运行时,它已生成了一种新模式,这使得玻尔兹曼机成为生成模型的早期实例。

玻尔兹曼机能够学习——不是通过指令,而是通过输入的示例学习。它的训练方式是更新网络连接中的值,使得在训练时输入到可见节点的示例模式,在机器运行时出现的概率最高。如果同一个模式在训练过程中重复出现多次,那这种模式的出现概率会更高。训练还会影响机器输出与训练示例相似的新模式的概率。

经过训练的玻尔兹曼机能够识别它未曾见过的信息中的熟悉特征。想象一下,当你遇到一位朋友的兄弟姐妹,你立刻就能看出他们一定是亲戚。同样地,如果玻尔兹曼机遇到一个属于训练数据集中某一类别的新示例,它就能识别出来,并能将其与不相似的信息区分开来。

在最初的形式下,玻尔兹曼机的效率相当低,寻找解决方案需要很长时间。当它以各种方式发展时,情况变得更有趣了,而欣顿也一直在探索这些发展。后来的版本已经过简化,因为一些单元之间的连接已被移除。结果表明,这可能会使机器更高效。

20 世纪 90 年代,许多研究人员对人工神经网络失去了兴趣,但欣顿是那些继续在该领域工作的人之一。他还帮助开启了新一轮激动人心的成果爆发。2006 年,他与同事 Simon Osindero、Yee Whye Teh 和 Ruslan Salakhutdinov 共同开发了一种方法,通过一系列分层堆叠的玻尔兹曼机来预训练网络。这种预训练为网络中的连接提供了更好的起点,优化了识别图像中元素的训练。

玻尔兹曼机通常被用作更大型网络的一部分。例如,它可以根据观众的喜好来推荐电影或电视剧。

机器学习:当下与未来

约翰·霍普菲尔德和杰弗里·欣顿自 20 世纪 80 年代以来的工作,为 2010 年左右开始的机器学习革命奠定了基础。

我们现在所见证的人工智能盛况得益于能被用于训练网络的海量数据,以及计算能力的巨大提升。如今的人工神经网络通常非常庞大,由多层构成。这些被称为深度神经网络,它们的训练方法被称为深度学习。

快速回顾霍普菲尔德1982 年关于联想记忆的文章,可以让我们对这一情况有所了解。在文章中,他使用了一个包含30个节点的网络。如果所有节点都相互连接,会有435个连接。节点有各自的值,连接有不同的强度,总共有不到500个参数需要跟踪。他还尝试了一个包含100个节点的网络,但对于当时的计算机来说过于复杂。我们可以将其与如今以ChatGPT为代表的大语言模型进行比较,这些模型构建为网络,可以包含超过一万亿(10¹²)个参数。

许多研究人员正在开发机器学习的应用领域。哪些领域最具可行性还有待观察,同时围绕这项技术的发展和使用也引发了广泛的伦理讨论。

由于物理学为机器学习的发展提供了工具,因此反过来,观察物理学作为一个研究领域如何从人工神经网络中受益也很有趣。过去的诺贝尔物理学奖所涉及的领域中,已经充满了机器学习的身影,包括使用机器学习来筛选和处理发现希格斯粒子所需的大量数据。其他应用包括减少测量黑洞碰撞产生的引力波的噪声,或寻找系外行星。

近年来,这项技术也开始应用在计算并预测分子和材料的性质——例如计算决定蛋白质分子功能的结构,或者找出哪种新材料可能具有最佳性能,以用于更高效的太阳能电池。

附录:过去10年诺贝尔物理学奖得主名单

2023年——美国科学家Pierre Agostini、德国科学家Ferenc Krausz和法国/瑞典科学家Anne L’Huillier获奖,获奖理由是“开发了产生阿秒光脉冲的实验方法,用于研究物质中的电子动力学”。

2022年——法美奥三位科学家Alain Aspect、John F. Clauser和Anton Zeilinger获奖,获奖理由是“进行了纠缠光子的实验,确立了贝尔不等式的违反,并开创了量子信息科学”。

2021年——美德意三位科学家因“对人们理解复杂物理系统的开创性贡献”而获奖。美籍日裔科学家Syukuro Manabe、德国科学家Klaus Hasselmann的获奖理由是“物理模拟地球气候,量化变化和可靠地预测全球变暖”;意大利科学家Giorgio Parisi的获奖理由是“发现从原子到行星尺度的物理系统的无序和波动的相互作用”。

2020年——英国科学家Roger Penrose获奖,获奖理由是“发现黑洞形成是广义相对论的一个有力预测”;另外两位获奖者是德国和美国科学家Reinhard Genzel、Andrea Ghez,获奖理由是“在银河系中心发现了一个超大质量的致密天体”。

2019年——美国科学家James Peebles获奖,获奖理由是“在物理宇宙学的理论发现”;另外两位获奖者是瑞士科学家Michel Mayor和Didier Queloz,获奖理由是“发现了一颗围绕类太阳恒星运行的系外行星”。

2018年——美法加三位科学家Arthur Ashkin、Gerard Mourou和Donna Strickland获奖,获奖理由是“在激光物理学领域所作出的开创性发明”。

2017年——三位美国科学家Rainer Weiss、Barry C. Barish和Kip S. Thorne获奖,获奖理由是“对LIGO探测器和引力波观测的决定性贡献”。

2016年——英美三位科学家David J. Thouless、F. Duncan M. Haldane和J. Michael Kosterlitz获奖,获奖理由是“理论发现拓扑相变和拓扑相物质”。

2015年——日本科学家Takaaki Kajita和加拿大科学家Arthur B. McDonald获奖,获奖理由是“发现了中微子振荡,表明中微子具有质量”。

2014年——日本及美国三位科学家Isamu Akasaki、Hiroshi Amano、Shuji Nakamura获奖,获奖理由是“发明了高效蓝光二极管,带来了明亮而节能的白色光源”。

****附录:诺贝尔物理学奖小知识

——截至2023年,诺贝尔物理学奖共颁发了117次,没有颁发的六年分别是1916、1931、1934、1940、1941和1942年。

——从1901年至2023年,共225人次获奖,实际获奖个人为224人,因为美国物理学家John Bardeen于1956年和1972年两次获奖。

——117次颁奖中,47次为单独获奖者,32次为2人共享,38次为3人共享。

——最年轻的获奖者是英国物理学家Lawrence Bragg,1915年因“用X射线对晶体结构的分析所作的贡献”与父亲一起获奖,时年25岁。

——最年长的获奖者是美国物理学家Arthur Ashkin,2018年因“在激光物理学领域所作出的开创性发明”获奖,时年96岁。

——224位诺贝尔物理学奖得主中,有5位女性。分别是1903年的居里夫人(居里夫人另外还获得1911年的化学奖)、1963年的Maria Goeppert-Mayer、2018年的Donna Strickland、2020年的Andrea Ghez,以及2023年的Anne L’Huillier。

——诺奖史上的“家庭”诺奖。

夫妇:Marie Curie和Pierre Curie夫妇获得1903年的诺贝尔物理学奖;

父子:William Bragg和Lawrence Bragg父子获得1915年的诺贝尔物理学奖;Niels Bohr获得1922年诺贝尔物理学奖,其子Aage N. Bohr获得1975年诺贝尔物理学奖;Manne Siegbahn获得1924年诺贝尔物理学奖,其子Kai M. Siegbahn获得1981年诺贝尔物理学奖;J. J. Thomson获得1906年诺贝尔物理学奖,其子George Paget Thomson获得1937年诺贝尔物理学奖。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值