上海交大 AI4S 团队提出「智能化科学设施」构想，建立跨学科 AI 科研助手-CSDN博客

本文链接：https://blog.csdn.net/HyperAI/article/details/136134455

作者：李宝珠

编辑：三羊

上海交大人工智能研究院 AI for Science 团队杨小康教授等人，提出一种智能化科学设施的建设构想，形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。

近年来，人工智能在科研中的应用持续向纵深发展，同时也在不断扩张应用领域的广度，从蛋白质折叠到新材料发现，从疾病预测到预后诊疗，从天文探索到自然灾害分析……AI for Science 多点开花的背后，一方面是国内外 AI 企业面向科学研究领域的研发，降低了 AI 工具的使用门槛；另一方面也是科研人员在接纳「AI 帮手」的过程中，与其磨合出了高效的协作模式。

Nature 的一项分析显示，在 Scopus 数据库中，在标题或摘要中提到人工智能或人工智能相关关键词的论文比例，从十年前的 2% 上升到了现在的 8% 。然而，纵观以谷歌 DeepMind 为代表的科技大厂所发布的大模型等工具，以及海内外高校研究团队发表的相关研究成果，大多是面向特定领域的特定问题，可复制性不足。

北京大学智能学院林宙辰教授此前接受 HyperAI超神经专访时便表示：“目前的 AI 工具缺乏统一性，即使只针对数学学科，面向数论和面向几何学所开发的 AI 工具就已经存在很大差别，更不用提跨学科的AI工具了。AI 工具还没有像当今的计算机一样，成为基础底座，可以方便取用。目前的计算机语言有 C 语言、Java、Python等，完全可以基于其中一种语言解决数学、物理、化学等多学科的问题，这体现了其通用性，但是 AI 工具则不然，光看谷歌 DeepMind 的 Alpha 系列便可知一二。”

针对于此，上海交通大学人工智能研究院 AI for Science 团队杨小康教授等人提出了一种智能化科学设施的建设构想，形成科学领域大模型、生成式模拟与反演、自主智能无人实验及大规模可信科研协作等创新功能。相关研究成果已发表于《中国科学院院刊》。

论文地址：
http://www.bulletin.cas.cn/previewFile?id=52965146&type=pdf&lang=zh
关注公众号，后台回复「AI4S」获取完整论文

兼顾创新与赋能

上海交大 AI for Science 团队提出，实现智能时代的基础科学源头创新及其下游重大技术创新，急需破解 2 个核心问题：

*如何面向 AI for Science 的研究范式，建立全新的科学智能大设施？

*如何利用新一代 AI 实现对传统科学设施的赋能？

智能化科学设施的总体思路

在创新层面，需要系统性、整体性地释放新一代 AI（特别是生成式 AI 及大模型）在基础科学领域的创造性和通用性，实现自发假设生成、自动规律推演、自主无人实验、自驱可信协作等创新功能，推动超大规模、高速迭代的科学探索。

在传统科学设施和研究范式下，整个科研流程存在科学问题沟通难、科学实验操作难、科学数据共享难等困难。一些高精尖的大型科学设施及其科研环境高度复杂，此类困难尤为突出。利用新一代 AI 实现「科学问题（科学家）—实验设备（实验员）—科研数据及文献（科研机构及中介）」高效闭环，不仅是新建的科学设施需要具备的标配，更是在已有的科学设施升级改造过程中的新需求和新机遇。

所以，该团队提出的建设「智能化科学设施」 (AI enabled Scientific Facility, AISF) 的构想，兼顾了「创建高度智能化的科学新设施」和「赋能已有科学大设施」2 个层面。

智能化科学设施的架构设想

如上图所示，智能化科学设施形成了人在环路的科学智能大设施 3 层体系架构。

*基础支撑层，通过高性能计算、算力网，形成算力支撑；

*科学模型层，构建跨学科、跨模态的科学大模型，以及「AI 科研助手」；
*实验应用层，通过 AI 操作机器人、智能实验环境，实现自主无人实验和多方科研协作。

4 大创新功能

在 3 层架构的基础上，智能化科学设施能够形成传统范式所不具备的 4 个主要新功能，即科学大模型、生成式模拟与反演、高通量自主无人实验、大规模可信科研协作。

智能化科学设施的创新功能

科学大模型

科学大模型作为「AI助手」辅助人类科学家进行科学研究，需要具备跨学科的知识背景、处理跨模态数据输入、掌握外部科学工具的调用能力，结合反馈与评测，实现持续进化。

科学大模型整体架构

如上图所示，构建科学大模型需要在基础大语言模型之上形成 4 种专门能力，并构建对应的评测基准。

第一是跨学科跨模态统一输入的能力。在科学研究产生的数据中，除了文本数据，一般还有公式、图表、分子式等多模态数据，如何实现这些跨模态数据的统一输入，进而对跨学科的专业知识进行联合建模，是建立科学大模型亟待解决的挑战问题。

第二是有效调用外部科学工具的能力。大模型存在输出看似合理、实则错误内容的问题，而解决此类问题的一种可行技术途径是将大模型作为规划与推理引擎，通过调用不同类型的外部科学工具，以提高可信度和准确性。

第三是模型持续反馈和进化的能力。科学大模型一方面可以利用科研人员的高质量反馈，完善科学领域专业知识，增强科学知识建模与推断能力，提高科学内容生成、文献归纳推理等方面的水平；另一方面，可以利用实验反馈来不断提升其科学假设生成和实验方案优化的能力。

第四是幻觉 (hallucination) 消除能力。幻觉是指模型生成的内容与现实世界事实或用户输入不一致的现象。如何有效筛选专家知识，并利用高精准度的专业知识进行强化学习，实现大模型的迭代和更新，是消除科学幻觉的重要方法。此外，基于基座模型的定向优化和集成，在特定领域提升模型的可信度和精准度，也是修正科学幻觉的重要途径。

最后，科学大模型的评测基准一方面测试科学大模型的跨模态、跨学科数据理解和建模能力；另一方面评测科学大模型是否具有利用科学工具准确鲁棒地完成复杂任务的能力，以及是否具有较强的拒绝生成虚假和有害内容的能力。

生成式模拟与反演

用仿真及计算机模拟工具实现「理论—现象」之间的推演是科学研究的重要范式之一。传统的基于数值计算的模拟方法在很多现实场景中存在求解速度与精度等方面的局限与挑战。

仿真空间的生成式模拟与反演

如上图所示，以生成式神经网络为基础结构，可以将对复杂系统的数值求解问题转化为数据拟合问题，建立起从假设空间到仿真空间的高效映射，从而加速求解。此外，利用生成式渲染技术，还能够实现从仿真空间到观测空间的科学现象表观生成，进而实现横跨「假设—仿真—观测」3 个空间的闭环学习，驱动规律反演。

自主智能无人实验系统

自主智能无人实验系统旨在将 AI 和机器人领域的技术成果与科学实验进行结合，通过无人化、标准化、大规模的实验流程，提升实验效率和可复用性。

自助智能无人实验系统

其中，无人实验操作平台及智能化系统的任务流程主要包括 3 个步骤：
*方案自动优化

*自主任务规划
*无人实验操作

同时，根据操作精度的不同，无人实验操作可分为微观和宏观 2 种空间尺度。微观尺度下的无人实验的操作对象通常为活细胞、蛋白质等微小颗粒，多采用固定实验平台，其核心问题为提升高精度操作通量。宏观尺度的无人实验操作侧重实验流程的完备性，以搭载机械臂的可移动机器人为主在实验设备之间自主移动，完成多任务全流程的自动化实验。

此外，在硬件本体平台的基础上，构建智能化系统软件是自主智能无人实验平台的另一个基础问题，通过软件驱动自身状态感知、外部环境感知、移动导航、仪器定位、实验操作规划和控制执行等流程。深度强化学习与模仿学习可以通过环境交互的经验轨迹或专家示教轨迹进行自主学习，构建观测信息与最优动作之间的映射关系。

大规模科研协作

智能化科学设施支持数据共享，以便于 AI 模型的开发与测试，但是需要设计一系列措施对数据开发者的知识产权与利益进行确认与保护。近年来，去中心化科学 (DeSci) 备受科研人员关注，DeSci 旨在使用 Web3 工具，包括智能合约和区块链来解决科学研究中的知识产权问题，促进科学数据的共享流通。

在该研究团队提出的智能化科学设施架构中，区块链技术为打造安全、可信的协作环境提供基础，联邦学习技术能够在去中心化的协作环境中解决数据孤岛问题并保证数据安全和科研效率，互联网群体智能可以将不同的科研模块整合在统一的平台中，实现高效的大规模科研协作。

大规模科研协作系统

躬身实践，推动 AI for Science 发展

作为智能化科学设施构想落地的首个阶段，上海交大搭建了 AI for Science 科学数据开放平台，包括科学算力基座、科学数据、人工智能、科学协作等四个子平台，并基于该平台研制了「白玉兰科学大模型」，于 2023 年 7 月和 12 月先后发布 1.0 版和 2.0 版，涵盖化学、流体、法律、跨科学评测基准等方向。

其中，不久前发布的「白玉兰科学大模型 2.0」包括了「法律开源 (BAI-Law-13B)」和「化学合成 2.0 (BAI-Chem 2.0)」。

BAI-Law-13B 经过海量中文互联网、开源代码、司法文书、法律文件和法律书籍等权威数据，进行了领域预训练，形成了 BAI-Law-13B-Base 模型，在此基础上融合法律知识记忆、法律知识理解、法律知识应用等司法应用场景监督微调，形成了 BAI-Law-13B-SFT 模型。据悉，在第三方法律综合评估基准 LawBench 测试中，其超越了该测试中所有的开源中文通用大模型和中文法律大模型。

BAI-Chem 2.0 可实现快速高效的药物分子设计，每秒可设计 30 个类药性、靶点高亲和力分子；在公开数据集 USPTO 测试集上单步逆合成 Top1 的准确率较目前文献最优提升了 15%。对高通量实验数据的产率预测 R² 达到了 0.88；催化剂推荐准确率达到了 93.7%。目前，BAI-Chem 2.0 已有效连接湿实验验证，在线实现实验优化，快速提高化学实验效率。

早期关注到 AI for Science、并组建相应研究团队，足以可见上海交通大学对于 AI4S 这一 AI 前沿应用的重视。目前，该团队不仅已经产出相关成果，并且持续与相关企业合作，相信在不久的未来便能够真正实现「智能化科学设施构想」中的跨学科、平台型协作。

参考资料：
1.https://news.sjtu.edu.cn/jdzh/20240124/193351.html
2.https://cloud.baidu.com/news/news_85aaa2be-241d-45c2-8aa1-3c8bbcfbd09b

往期推荐