人工智能增强型高性能计算(AHPC)与科技膨胀

​        膨胀理论(Inflation theory)于1980年由麻省理工学院(MIT)的科学家阿兰·固斯(Alan Guth)提出。该理论指出,早期宇宙的空间以指数倍的形式膨胀。这种快速膨胀过程叫做“膨胀”,意指宇宙在一段时间里,是以非常大的增长速率膨胀。在暴涨结束后,宇宙继续膨胀,但是膨胀速度则小得多。

     人工智能增强型高性能计算(简称AHPC)已开始在科学宇宙中拓展新的空间,而这一空间过去是传统高性能计算数值方法无法进入的(在计算上是可控的)。

        在数值计算领域,预测未来的一种方法是根据过去拟合。虽然并不总是完美的,但是预测超级计算机在未来运行 HPC 基准的速度通常与扩展线有关。这些线条反映了计算效率和瓶颈,最终形成了未来的近期异常。对于其他许多应用程序也是如此——对代码进行基准测试、画线并设定合理的期望值。

        高性能计算的线性宇宙即将进入膨胀期。随着生成式人工智能(LLM)的使用,高性能计算的能力和覆盖范围都将加速提升。尽管不可置信,但训练有素的LLM模型可以发现科学家和工程师所不熟悉的关系或特征。

        LLM可以识别数据中的"特征"。考虑一下"速度"这样的特征,它是汽车、狗、计算机、糖浆等不同类型的物体所共有的。每种物体都有一种与之相关的 "速度"。LLM可以识别"速度",并在完全不同的数据之间建立关联、关系或类比(例如,"汽车比狗快"或"这台电脑像糖浆一样慢")。

        数据中存在我们不知道的 "暗特征"。经过适当的训练,LLM 能够很好地识别和利用数据中的“暗特征”。这就是科学家和工程师无法看到但仍然存在的关系或 "特征"。

        AHPC利用这些黑暗特性来拓展高性能计算的计算空间。这些通常被称为 "代理模型",通过提出最佳候选方案,为科学家和工程师提供通往潜在解决方案的捷径。例如,LLM 可以将可行解决方案的范围缩小几个数量级,而不是通往解决方案的 10,000 种可能路径,从而使曾经难以计算的问题变成可以解决的问题。

        此外,使用基础模型感觉像是一个 NP 难问题(可以在多项式时间里猜到一个解的问题)。创建模型的计算成本很高,但测试结果往往微不足道(或至少可以用更少的时间)。我们正在进入人工智能增强高性能计算的时代,在这个时代,人工智能被用来协助传统的高性能计算领域,提供计算量更少的解决方案,或推荐更易处理的优化解决方案空间。

      这些非凡的突破正在发生。AHPC似乎并没有试图创建像 ChatGPT 或 Llama 这样的大型通用人工智能模型,而是专注于为解决特定科学领域问题而设计的专门基础模型。本文将介绍三个此类模型的实例。

        AHPC的极限和影响尚不可知,因为科学家和工程师无法看到基础模型所能识别的 "暗特征"。进步不会是线性的。如下所述,早期基础模型预示着计算科学空间的巨大扩展。

可编程生物学:EvolutionaryScale ESM3

        生物科学的圣杯是理解和驾驭序列(DNA)、结构(蛋白质)和功能(细胞、器官)的能力,每一个都有自己的研究方向。将这些过程结合起来,将开启可编程生物学的新时代。与任何新技术一样,这也存在风险,但回报则包括以前不可能实现的新药、治疗方法和药物。

      EvolutionaryScale公司开发了一种生命科学基础模型ESM3,该模型可以像机器、微芯片和计算机程序一样从第一原理出发进行生物工程。该模型从生物体和生物群落(具有特定气候、植被和动物生命的独特地理区域)采集的近 28 亿个蛋白质序列进行训练,与之前的版本相比有了重大更新。 

       尝试进行生物工程是困难的。根据人类基因组(和其他基因组),蛋白质折叠试图找出蛋白质在生物环境中的形状,这个过程是计算密集型的,其中最成功的尝试之一是 AlphaFold,它利用深度学习来加速这一过程。

ESM3 是一种多轨道转换器,可对蛋白质序列、结构和功能进行联合推理(来源:EvolutionaryScale)

        作为概念验证,EvolutionaryScale 发布了一份新的预印本(目前处于预览阶段,有待提交至 bioRxiv),其中描述了一种新型绿色荧光蛋白(GFP)的生成过程。荧光蛋白是水母和珊瑚发光的原因,也是现代生物技术的重要工具。ESM3鉴定出的新蛋白与已知最接近的天然荧光蛋白的序列相似度仅为58%,但它发出的荧光亮度与天然GFP相似。

        从大量的序列和结构中纯粹偶然地(或反复试验)生成一种新的 GFP 几乎是不可能的。EvolutionaryScale 指出:"从自然界中发现的 GFP 的多样化速度来看,我们估计生成一个新的荧光蛋白相当于模拟 5 亿多年的进化过程。

        EvolutionaryScale 在其介绍性博客中提到了安全和负责任的开发。事实上,就像 E3M3 这样的基础模型可以被要求创造治疗癌症的新候选物质一样,它也可能被要求创造致命物质——比目前已知的物质更致命。随着基础模型的不断改进和普及,人工智能的安全性将变得更加重要。

    EvolutionaryScale 已承诺开放开发,并将其权重和代码放在 GitHub 上。他们还列出了正在使用开放式 ESM 模型的八项独立研究工作。

天气和气候预测:Microsoft ClimaX

        AHPC 的另一个例子是微软 ClimaX 模型,它ClimaX 模型是第一个为天气和气候科学而训练的基础模型。(代码和文章引用)

        最先进的数值天气和气候模型基于对大型微分方程系统的模拟,这些微分方程系统根据不同地球系统的已知物理学原理将能量和物质流联系在一起。众所周知,如此巨大的计算量通常需要大型 HPC 系统。这些数字模型虽然很成功,但在分辨率方面往往受到底层硬件的限制。机器学习(ML)模型可以提供另一种受益于数据和计算规模的选择。最近,为中短期天气预报而扩大深度学习系统的尝试取得了成功。然而,大多数机器学习模型都是针对特定数据集上的特定预测任务而训练的,它们缺乏天气和气候建模所需的通用功能。

        与许多基于文本的LLMs不同,ClimaX 基于 Google Research 修改过的 Vision Transformer (ViT)引用模型。ViT 最初是为处理图像数据而开发的,但经过修改后可用于预测天气。

        ClimaX 可针对各种预测任务进行微调,以适应各种用途,并在多个基准测试中表现优于最先进的预测系统。例如,在使用相同的ERA5数据时,即使在中等分辨率下,ClimaX的性能也可与IFS(Integrated Forecasting System ,一种全球数值天气预报系统)相当,甚至更好。

    ClimaX 可作为任何天气和气候建模任务的基础模型(资料来源:微软)

  • 在天气方面,这些任务包括在全球和区域范围内以不同分辨率对各种提前期进行标准预报。

  • 在气候方面,进行长期预测和从低分辨率模型输出中获取降尺度结果。

COVID-19 Variant Search at Argonne

        美国能源部阿贡国家实验室(Argonne National Laboratory)的科学家和其合作团队展示了另一个特定领域基础模型的成功应用,该项目开发了一个 LLM,以帮助发现 SARS-CoV-2 的变种(引用)。

        所有的病毒,如 COVID-19,都会在繁殖(利用宿主细胞机制)过程中发生进化。每一代病毒都会发生变异,产生新的变种,其中许多变种没有显示出额外的活性,有些变种可能比原始病毒更具致命性和传染性。当某一变种被认为更危险或更有害时,就会被称为 "关注变种"(VOC)。预测这些变种是很困难的,因为可能出现的变种相当多。

        研究人员利用阿贡实验室的超级计算和人工智能资源,开发并应用 LLM 模型来追踪病毒如何变异成更危险或更易传播的变种。阿贡团队与合作者创建了首个基因组规模的语言模型(GenSLM),可以分析 COVID-19 基因并快速识别 VOC。通过对一年的 SARS-CoV-2 基因组数据进行训练,该模型可以推断出该病毒各种病毒株之间的区别。此外,GenSLM 还是第一个全基因组范围的基础模型,可以改变并应用于类似于 VOC 识别的其他预测任务。

        在此之前,如果没有 GenSLM,识别 VOC 需要逐个检查每个蛋白质,绘制每个突变的图谱,以确定是否有感兴趣的突变。这个过程需要耗费大量的人力和时间,而 GenSLM 可以帮助简化这个过程。下图中显示 GenSLM 模型根据一年的 SARS-CoV-2 基因组数据,可以推断出各种病毒株之间的区别。   

左侧的每个点对应一个已测序的 SARS-CoV-2 病毒株,按变异体用颜色编码(图片由阿贡国家实验室/Bharat Kale、Max Zvyagin 和 Michael E. Papka 提供)

    在这篇论文中可以找到对这项工作的完整描述“GenSLMs: Genome-scale language models reveal SARS-CoV-2 evolutionary dynamics”。值得一提的是,该项目因其快速识别病毒进化过程的新方法而获得了 2022 年戈登-贝尔基于高性能计算的 COVID-19 研究特别奖。

END

        以上三个例子是各自行业的代表成果。目前,构建和运行 LLM 基础模型仍然是一项专业任务。对于领域从业者来说,有了硬件创建新的增强型模型将变得更加容易。这些基础模型将认识到其特定领域的 "暗特征",并允许科学和工程扩展到新的领域,科学与技术的宇宙将变得更大、更广。

内容引用:https://www.hpcwire.com/2024/06/27/ai-augmented-hpc-and-the-inflation-of-science-and-technology/

EvolutionaryScale公司链接:https://www.evolutionaryscale.ai/

EvolutionaryScale 预印版论文链接:

https://www.biorxiv.org/content/10.1101/2024.07.01.600583v1

EvolutionaryScale:https://www.evolutionaryscale.ai/blog/esm3-release?s=03#simulating-500-million-years-of-evolution

微软 ClimaX 模型:

https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/introducing-climax-the-first-foundation-model-for-weather-and-climate/

https://github.com/microsoft/ClimaX

GenSLM 模型链接:

https://www.biorxiv.org/content/10.1101/2022.10.10.511571v1

  • 27
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值