AI 对科学探索推动的边界在哪？蛋白质、气象等领域专家共话AI4S | 2024智源大会精彩回顾...

智源社区

于 2024-06-19 17:55:16 发布

阅读量438

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247549743&idx=2&sn=d35945afce05df606c055f26b8285811&chksm=ff517a6913cee134c2d01a8a9f5176f957c534acfa7f98d1d5134d9b53bd990b488f3cd75a18&scene=126&sessionid=0

版权

一直以来，AI for Science 旨在推动科学发现的边界，加速创新过程，并解决复杂问题。在科学实践过程中，我们发现AI不仅能够提高科学研究的效率，还能够开辟全新的研究路径，探索以前不可能观察到的模式和联系。这一点在生物信息学、物理学、化学和天文学等学科中均有体现。

AI技术是否能够帮助解决Science中大家真正关心的问题，是智源大会「AI for Science」论坛的核心话题。本次论坛由清华大学惠妍讲席教授马维英和智源研究院健康计算研究中心负责人叶启威共同担任论坛主席，邀请了来自清华大学、上海交通大学等国内外知名研究机构的顶尖学者共聚一堂，报告的内容涵盖AI与生命科学、AI与蛋白质工程等方面。

张强锋：蛋白质结构预测是 AI for Life Science 的最佳问题，因为结构预测有大量、高质、准确且有标签的蛋白质序列和结构的数据

洪亮：数据远比模型和算力重要，有钱也不一定能买到。

张伟伟：在工程设计领域，数据难获取、成本高，尤其在军工保密单位，数据孤岛效应相当明显。

周浩：现在所有AI包括GPT的进展都受益于Scaling Law，但在AI for Science领域还不太行。

苏锐：AI for Science，分子动力学材料方向，以及生物制药生命科学这两个方向。在商业价值、社会价值上面它们都具备非常大的潜力。

......

以下是核心内容整理 ↓

当人工智能遇上生命科学

报告嘉宾：张强锋 | 清华大学生命科学学院、清华-北大生命科学联合中心研究院、博导

生命科学作为自然科学最重要的分支之一，在近20年迎来海量数据时代，这一时期产生了大量多层次的数据，使研究的复杂性大幅提升。人工智能技术的突破性进展，为理解生命科学领域的海量数据、解析其复杂的调控网络提供了强有力的新工具。

Alphafold可以说是AI for Science最突出的代表，它使用人工智能的方法去预测蛋白质结构，而且获得了接近于实验解析的准确度，在一定程度上解决了蛋白质结构预测这一问题。并且蛋白质结构预测是AI for Life Science的最佳问题，就是因为结构预测有大量、高质、准确且有标签的蛋白质序列和结构的数据。张强锋教授团队成功运用人工智能技术，助力冷冻电镜技术中从3D map生成3D模型的工作。

A²-Net利用人工智能在图像识别领域的卓越性能，在3Dmap中提取出density信息，并借助 ResNet 网络结构进行连接和处理，从而实现了三维电子云图像的自动化模型构建。然而，需要注意的是，此项研究工作中所采用的是合成数据，而非实际获取的真实数据。

受Alphafold2实现端到端学习的启发，张教授团队对A²-Net进行升级。该升级版本将蛋白质序列视为一种语言，并在一个网络内部将氨基酸的识别和串联连接起来，从而达到了对蛋白质结构解析的83%准确度。随着研究的深入，张教授团队在提供蛋白质解析工作的基础上，进一步开发并建立了结构模型框架。该框架能够利用低分辨率的density map来搭建原子模型，并实现了高度准确的解析。

基于预训练的蛋白质工程通用人工智能

报告嘉宾：洪亮 | 上海交通大学自然科学研究院/物理天文院/药学院特聘教授，上海交通大学张江高研院人工智能生物医药中心主任

蛋白质工程是通过优化蛋白质中5-20个位点的特定性质，以实现其在工业、医药等领域的应用。目前，主要采用以下两种方式来实现这一目标：

1. 理性设计/半理性设计：通过结构解析和氨基酸改造来优化蛋白质性能，但耗时长且改造区域受限；

2. 定向进化：通过高通量随机突变和筛选找到符合应用需求的蛋白，但成本高、耗时长且效率低。

Alphafold的出现在结构预测方面取得了重大突破，但并未解决蛋白质功能问题。蛋白质工程的核心挑战在于庞大的蛋白质突变空间，有效突变组合的寻找异常困难。设计针对功能的蛋白质工程通用AI大模型，直接面向功能设计序列，是解决这一核心问题的重要方向。

洪亮教授团队在2022年已成功构建预训练模型，该模型利用自然语言模型学习自然界中蛋白质的氨基酸排列方式，并进行功能优化。该模型应用在多个真实案例，包括：

1. 某IVD酶（Crispr cas12a）：通过预训练模型筛选，提高此酶的耐高温性。

2. 填料亲和抗体：通过AI优化，仅需两轮改造就提高抗体的抗碱性能达到工业化生产要求。

3. 体外诊断试剂盒：利用大模型筛选，显著提高了核心物料的活性和产量。

4. 非天然核酸聚合酶：助力研发自然界不存在的非天然核酸聚合酶，三轮改造后突变体活性提高5倍。

5. 抗体亲和力优化：通过AI优化，显著提高了抗体亲和力，其设计效果优于专家理性设计。

6. 抗体亲和力成熟（单盲测试）：解决了蛋白质工程中小样本数据的学习问题，提高了预测准确性。

7. 大模型挖掘塑料降解酶（PETase）:通过大模型筛选，发现了具有显著稳定性和活性的高温酶。

洪亮教授提出，通过大模型挖掘酶和优化蛋白质功能能够快速产生有效的实验结果，人工智能已经彻底颠覆蛋白质工程领域，通用人工智能已成为当前解决工程问题的重要工具。

微分方程求解的两种范式对比分析、融合与展望

报告嘉宾：张伟伟 | 西北工业大学航空学院长江学者特聘教授，中国空气动力学会副理事长，流体力学智能化国际联合研究所所长

从实验科学、理论科学到大数据驱动的科学范式，计算科学在过去几十年大放异彩。近几年神经网络的加入使计算科学产生了质的变化。传统范式侧重于求解域和控制方程的离散化，而智能范式则依赖于网络架构设计和参数优化。本报告将探讨如何结合这两种范式的特点，以促进计算科学的进一步发展。

首先，可以用传统范式给智能范式困境求解。

1. 用FD-PINN求解频域方程，把微分方程从空间域变换到频域，实现典型空间微分项的代数化，降低神经网络输入配点数目及优化难度，从而实现效率和精度的提升。

2. VW-PINN体积加权策略可有效应对PINN在求解流场时因大梯度而可能导致的求解失败问题。针对PINN的无网格特性，VW-PINN通过考虑残差约束点在求解域内所占的单元体积，对方程残差进行加权，确保总残差得到降低。

3. 为解决PINN在复杂问题求解中的收敛困境，张教授引入伪时间求解方法提出了TSONN。TSONN的拟时间推进机制确保了算法的整体收敛性，从而将PINN中的病态优化问题转化为一系列更易于解决的良性子优化问题。

4. 发展从物理域到变换域的求解思路，其中NNfoil神经网络被用于学习计算空间而非物理空间的流场信息，从而提高对复杂问题的求解能力。

5. 针对工程设计中需要对状态和外形的遍历求解问题，NNfoil-C大模型能够实现流动的全批量化求解，显著提高了求解效率和精度。

其次，将智能范式赋能传统范式，在传统计算范式下从前置处理、物理模型、后置处理等各方面做赋能工作。张伟伟教授团队在修正和补充传统计算格式、低精度方法的精度补偿以及物理模型构建等方面都进行了深入探索并取得了丰硕的成果。

最后，在两种范式融合方面，张教授团队设计了MSNC流程架构，该架构将数值解分解为大尺度和小尺度解的叠加。分解之后大尺度解通过神经网络优化求解，小尺度信息通过差分迭代求解，从而在保持相同网格量的同时，获得了更高的求解精度。

张伟伟教授认为，传统范式和智能范式各有其独特的优势和局限性。通过融入传统范式丰富的经验，为智能范式提供了重要的赋能；而智能范式则通过其创新的技术手段，为传统范式的模型构建和效率提升提供了有效的抓手。要实现这两种范式的深度融合，仍有大量的工作值得我们去探索和实践。

探索未来，智驭气象——人工智能地球科学研究前沿进展

报告嘉宾：苏锐 | 上海人工智能实验室青年研究员

虽然基于物理的数字预报模式经过多年发展，但由于其发展速度较慢和巨大计算量要求的限制，相关研究机构开始探索将人工智能应用于气象预报领域。

全球中期气象预报旨在基于当前的气象要素场来预测未来14天内逐小时的全球气象要素场变化。苏锐团队通过对过去40年内逐小时的全球气象要素场数据进行深入分析，发现每个时刻的全球气象要素场实际上是上一个时刻全球要素场的一种自然标注。因此，他们提出了FengWu模型，一个基于相邻两个时间点预测关系，用以预测未来的气象要素场的模型。FengWu模型的目标是下一刻预测大气变量，然后通过自动回归方法获得所有预测。

FengWu模型拥有两大显著优势。首先，它具备长时间的提前预报技巧，预报技巧能力高达10.75天。其次，它在计算效率上表现出色，相比以往基于物理的数值预报模式需要一万个计算节点运行一个小时才能产生未来10天的预报结果，FengWu模型仅需一个GPU在30分钟内即可完成。在预测台风轨迹方面，FengWu模型的表现甚至超越了欧洲中期气象预报中心、日本和美国气象局等机构。然而，值得注意的是，当前AI模型在预测极端天气时存在平滑化趋势，其预测结果相较于物理方法略显不足。

高分辨率能够带来更精确的气象预测结果，尤其在局地温度差异显著的情况下表现更为突出。然而，高分辨率数据也带来了内存和计算量消耗大以及数据稀缺的挑战。为克服此难题，苏锐研究员将高分辨率的大气运动分解成两个不同的部分，先对低分辨率的气象数据进行处理，拼接起来再捕捉高分辨率数据里面的非线性、复杂性。

对高分辨率数据还会带来长时间预测的误差累积问题，苏锐研究员选择采用LoRA训练模式，有效减少计算开销。基于这些解决思路，苏锐团队开发了高分辨率预测的FengWu-GHR模型。通过使用1800个气象站的实时观测数据进行验证，结果显示FengWu-GHR模型在不同时间段的预测结果均具备显著优势。

报告主题：面向科学发现的生成式人工智能

报告嘉宾：周浩 | 清华大学智能产业研究院副研究员

周浩团队针对面向复杂符号的生成式人工智能，将其面向对象由自然语言处理迁移至分子生成和蛋白质设计领域。在拓展这一研究方向时，团队采用双轮驱动策略：利用LLM的经验尝试建立AI4S的基座。

在面向科学发现的生成式人工智能研究中，主要面临三个挑战：

1. 数据模态复杂、噪声敏感；

2. 数据符号顺序性差，分子数据的顺序和双向依赖性强于文本；

3. 数据量稀少，训练模型泛化性差

针对这些挑战，周浩团队主要进行了三种方向的研究。

第一个方向是从数据结构出发，寻找本征的数据刻画空间。在分子的3D结构表示中，团队提出保留二面角自由度、移除其他冗余自由度的方法并将所有分子进行碎片切割处理成此数据结构，进而应用于分子生成。对于蛋白质的数据结构，团队探索了将蛋白质从时空间映射到谱空间的技术，以实现几何和化学信息的统一表示。

第二个方向围绕如何设计适配分子的生成模型展开。周浩团队提出了MARS，它采用无监督的多目标分子优化采样方法。此外周浩团队在3D分子设计上做出第一个在表示空间进行去噪学习的分子生成模型模型——GeoBFN。

最后，从基座构建的角度出发，周老师团队致力于建立富含广袤数据知识的预训练基座。这包括正在进行的无监督分子生成、2D和3D分子联合预训练，以及ESM-AA模型。ESM-AA模型作为基于序列基座的代表，未来将与结构基座进行融合与竞争，以进一步推动基座构建的发展。

圆桌论坛：人工智能对科学探索推动的边界在哪里？

（圆桌主持：叶启威）问题1：在工作中是否面临过数据孤岛的问题？如何解决？

张强锋：生命科学是大数据驱动的领域，标准化和标签化的数据对AI在生命科学中的应用至关重要。现实中确实有些问题无法拿到合适的数据。基因表达调控等比蛋白质结构预测更难一些，其中数据量少就是一个原因。临床数据和医学数据通常集中在医院和制药公司内部，由于商业价值高，这些数据并不容易公开共享。然而，为了推动生命科学和AI的发展，打通不同机构之间的数据壁垒，实现数据的标准化和共享变得尤为重要。通过体制优势和跨机构合作，推动数据标准化和共享，是解决这一问题的关键。

洪亮：数据远比模型和算力重要，有钱也不一定能买到。例如在药物设计中，生物大分子的免疫源性问题在动物和人类实验中存在差异，但很难做人的实验，这是现实存在的问题。因此我们从AIDD转向蛋白质工程，通过AI改进小样本学习，低成本快速验证产品。我觉得人工智能还是要朝着能解决问题的方法去走。当面临超高成本的实验数据时，可采用部分数据加上小样本学习来解决局部问题。

张伟伟：在工程设计领域，数据难获取、成本高，尤其在军工保密单位，数据孤岛效应相当明显。与其做大模型，不如通过标模数据集训练专用的小模型，给出模型训练的方法，让企业用自己的数据进行训练，这种策略有助于在统一性大模型与特定场景需求之间找到平衡。

周浩：在文本处理领域的经验表明，不同子任务的监督信号可以相互促进，从而提高整体效果，这种端到端学习方法在AI for Science中也可能具有潜力。通过设计适配模型，将不同方向和任务的信号互相促进，可以逐步积累和整合数据和知识，尽管仍有挑战，但有望显著提升模型性能。

苏锐：在我们学科中首先想办法获取真实数据，无法获取时就找仿真数据，若无仿真数据就找其他研究人员仿真的模型然后自己造数据来尝试解决问题。

问题2：在ChatGPT等技术的背景下，人们普遍认为通过大量堆积计算资源可以获取长远来看极具探索价值的回报。在AI for Science领域，我们投入更多算力就能产生更多效果吗？

周浩：现在所有AI包括GPT的进展都是受益于Scaling Law，但在AI for Science领域不太行。我感觉这就像文本和图像一样，在图片里面没有找到Scaling Law，如果能找到本真的空间，有可能真的能建立一个很通用的基座，但挺有挑战性的。

张强锋：数据本身存在问题。一方面数据可能不足，当模型复杂但无足够数据去训练也无法体现模型的优越性。另一方面数据的复杂性可能不同。在生命科学研究中，用不同平台测出的数据是不一致的，例如单细胞测序产生那么多数据，不同的平台得到的信息都是片面的，都是有一个前置条件的，将不同源数据作为相同数据进行训练也很难得到好的结果。

问题3：张伟伟老师，在您看来算力对于解决您现在的问题是一个办法吗？

张伟伟教授表示在数据、算力和算法三个视角下，工程计算特别是力学工程计算和建模方面，尤其是AI算力，倒不是瓶颈的问题。数据的产生成本比较固定，在有限数据下建立高度泛化和高精度预测模型，算法显得至关重要。这需要解决高维问题下稀疏数据的降维表征这一科学问题，如何在数据中挖掘知识，可能在AI for Science领域，符号主义将重新兴起。同时，AI for Science可以通过发现新知识、开发新工具和简化复杂问题，为全人类服务，但在具体场景结合的模型架构设计上仍有许多工作要做。

问题4：现在AI在解决AI for Science上，算法上是不是还有很大的空间需要被改进？以及AI的方向该怎么推动这样的改进？

苏锐：在数据、算力和算法三者中，数据最重要，算力其次，算法排在最后。高质量和大量的数据对结果影响最大，而算法更多是针对特定问题进行设计和优化，尽管在学术上有新的探索，但对实际工程问题的解决作用有限，关键在于如何将科学问题正确地转化为AI问题。

周浩：自2012年我开始读博士以来，在文本、图像和语音处理领域，算法已经收敛到Transformer，但在AI for Science领域，还未达到这种收敛状态。虽然Transformer的成功得益于其适配GPU硬件和大量工程细节，但在AI for Science领域，算法不仅需要匹配算力和GPU，还要匹配数据产生的仪器，因此可能会产生新的算法来应对这些挑战。

问题5：如果跳出你们现在的行业来看，在接下来的5到10年，在哪个科学领域最具备AI爆发的潜力？

周浩：当前蛋白质的数据数量最多，我认为蛋白质工程领域具备这个潜力。

苏锐：现在说AI for Science，AI for Science，分子动力学材料方向，以及生物制药生命科学这两个方向。目前也有大量资源投入到这两个方向上，我认为不论在商业价值、社会价值上面它们都具备非常大的潜力。

张伟伟：从应用视角来看，AI在面向工程领域的应用具有广泛的价值。例如通过迁移学习等方法，就能够解决导弹设计中因微小外形改动而带来的高额试验/仿真成本和时间成本问题。AI研究者需要和其他行业进行需求对接交流，很多场景都有可以解决的问题。AI的发展和应用将对多个领域产生深远影响，包括工程和科学研究，其潜力甚至可能超过计算机对社会的影响，会导致大量没有创新性的重复性脑力劳动被替代，对劳动力结构产生显著影响。研究人员工作的核心要做创新研究，唯有创新才有价值。

洪亮：多年在生物领域的研究，发现人工智能在大健康领域有巨大潜力。AI和Science需要紧密结合。（1）AI从业者要解决实际问题；（2）做工程、技术研究的科学家应主动接受并容错。AI for Science，首先要解决AI和Science合作把事情做了，只有这样才能在AI for Science领域取得真正的突破。

张强锋：我自己做结构生物学到分子生物学到细胞生物学，再到系统合成、进化，各个层次都有很多的重大的生命科学问题还没有得到很好的解决。从结构预测到基因表达调控、细胞命运决定和系统建模这些生命科学问题中，AI可以发挥重要作用。另外今天的主题是AI for Science，我觉得还有反过来Science for AI的方向。AI的发展依赖于强大的算力来模拟智能，但人类的智能却以极低的能量消耗展现出极高的智能水平。因此，从生命科学的角度出发，深入研究如何理解人类的智能，将为我们在AI与科学交叉领域中的探索提供新的视角和可能。这种交叉研究有望帮助我们更深入地理解智能的本质，并推动AI技术的进一步发展。