入选ACL 2024！浙大推出首个海洋大语言模型OceanGPT，水下具身智能成现实

HyperAI超神经

已于 2024-07-26 11:07:08 修改

阅读量2.9k

点赞数 26

分类专栏： ScienceAI 文章标签：语言模型人工智能自然语言处理浙江大学神经网络深度学习机器学习

于 2024-07-24 11:53:17 首次发布

本文链接：https://blog.csdn.net/HyperAI/article/details/140658789

版权

ScienceAI 专栏收录该内容

229 篇文章

订阅专栏

大语言模型 (LLM) 在内的 AI 工具正逐渐改变科学范式，被 Nature 列为 2024 年值得关注的科学事件之一。 作为文本数据挖掘领域的核心工具，大语言模型可以从海量文本数据中提取关键的科学信息、模式和趋势， 从而加深对不同学科的理解，并为科学研究进程、决策制定和复杂问题解决提供强有力的支持与洞见。

比如，生物医药领域， 微软曾在 PubMed 数据库数百万篇相关科学论文上训练了语言模型 BioGPT，该模型擅长理解专业术语、基因名、蛋白质序列等复杂概念，相比非专业模型，BioGPT 可快速准确地生成生物医学问题答案， 完成文本挖掘、实验报告撰写、分子设计、文献综述撰写等任务。

同样地，在海洋科学领域， 利用大语言模型分析海量海洋科学文本数据，理解海洋特征、变化规律、资源开发利用等相关的理论、方法，对全球气候调节、天气模式塑造、生物多样性维护、人类未来经济发展至关重要。

然而，多维度、多尺度的海洋数据，规模庞杂且类型丰富，传统的数据处理方法难以应对。同时，海洋科学涵盖多领域和学科，每个领域和学科都有其独特的数据属性和模式，这就要求 LLM 具备更丰富的专业知识储备，但当前的主流 LLM 仍不能完全满足海洋学家的特定需求。

对此，浙江大学计算机科学与技术学院张宁豫、陈华钧团队提出了首个海洋领域大语言模型 OceanGPT， 该模型擅长处理各种海洋科学任务，可以根据海洋学家的指令回答问题。通过海洋学基准 OCEANBENCH 的评估，OceanGPT 不仅在海洋科学任务中表现出较高的专业知识 (knowledge expertise)，而且在海洋工程方面获得了初步具身智能 (embodied intelligence) 能力。
OceanGPT 项目地址：

http://oceangpt.zjukg.cn/

此外，为了缓解获取海洋数据的困难，研究人员还提出了一个基于多 Agent 协作 (multi-agent collaboration) 的海洋科学指令生成框架 DoInstruct， 其中，每个 Agent 被视为某一特定领域（如科学与研究、资源与开发、生态与环境等）的专家，并负责生成相应领域的数据。

该研究以「OceanGPT: A Large Language Model for Ocean Science Tasks」为题，近期被自然语言处理顶级会议 ACL 2024（CCF-A 类会议）录用为主会论文。

研究亮点：

与现有的开源大型语言模型相比，海洋领域大语言模型 OceanGPT 能够处理更专业的海洋任务
海洋科学指令生成框架 DoInstruct 具有很大的灵活性，可被优化并应用于不同科学领域（例如天文学）

在这里插入图片描述

论文地址：

https://arxiv.org/abs/2310.02031

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：高质量驱动，来自 67,633 篇海洋科学文献

研究人员收集近几年 67,633 篇海洋科学领域文献作为原始语料库， 还选择一些历史上的重大意义文献帮助 LLM 理解海洋领域发展史，为确保多样性，文章来自不同渠道，涵盖各种研究视角和方法。

为确保数据的质量和一致性， 研究人员利用正则表达式 (regular expressions) 过滤掉图形、表格、页眉、页脚、页码、URLs 和引用，移除多余的空格、换行符和其他非文本字符，还替换或删除特殊字符、表情符号和乱码字符。处理后的文档涵盖海洋科学的各个领域，如海洋物理、海洋化学、海洋生物学、地质学、水文学等。

随后，研究人员采用哈希算法对数据进行去重， 这有助于减少模型预训练过程中的过拟合风险，并提高其泛化能力。

由于海洋科学语料库包含多个领域和主题，每个主题都有其独特的数据特性和模式，为了有效模拟和获取这些数据，研究人员提出了一个领域指令生成框架 DoInstruct。
*海洋主题：根据海洋学专家的专业知识，将海洋科学数据手动分为 5 个相对独立的海洋主题，分别是科学与研究、资源与开发、生态与环境、技术与工程、生活、文化及其他。

高质/专业/多样，DoInstruct 可生成海洋指令数据

领域指令生成框架 DoInstruct 基于多 Agent 协作，可有效实现海洋数据生成。

在这里插入图片描述

DoInstruct 框架

据上图所示，在 DoInstruct 框架下，研究人员设计了 3 种 Agent 角色： 演化式的数据合成 Agent (Evolving Agent as Generator)、经过微调的文献阅读 Agent (Fine-tuned Agent as Literature Extractor) 和审核 Agent (Agent as Inspector)。每个 Agent 都被视为某个特定领域（主题）的专家，并负责生成相应的数据。

演化式的数据合成 Agent：Evolving Agent as the Generator

为构建种子数据集 (Seed Data)，研究人员雇佣数十位具有丰富海洋科学背景的标注者，每位标注者负责几个主题，并为每个海洋主题手动编写一些具有代表性的示例。

然后，研究人员使用大型语言模型模仿现有数据并生成大量类似样本，所有样本都由标注者手动检查。最终的种子指令数据集包括 5 个主要类别、500 多个子类别和 1 万多个数据样本。

在这里插入图片描述

左图：演化式的数据合成 Agent

得到种子指令数据集后，研究人员从中选择样本，并调用 Agent (gpt-3.5-turbo) 来演化所选样本。

如左图所示，具体而言，补充拓展种子样本的背景知识，对种子数据包含的知识点进行细化分析增强和改进，通过多轮迭代，研究人员可快速扩展现有种子数据集，并扩展信息的广度和深度。

经过微调的文献阅读 Agent：Fine-Tuned Agent as the Literature Extractor

在这里插入图片描述

经过微调的文献阅读 Agent

研究人员收集了一个专家标注语料库 (Expert-annotated corpus)，并用 BM25 算法从更大的海洋语料库 (Oean Corpus) 中检索高质量句子，将二者视为高质量的候选样本 (High-quality Candidates)。同时，研究人员使用种子指令数据集对 gpt-3.5-turbo 进行微调，将微调后的 Agent 视为文献提取器，该 Agent 可以从海量海洋语料库中提取高质量文本。

确保数据质量的审核 Agent：Agent as the Inspector with Rule Constraints

在这里插入图片描述

确保数据质量的审核 Agent

对于生成的大量指令，研究人员使用语法、语义、海洋领域基本定义等作为规则约束，通过提示的方式构建 Agent，并对数据进行过滤，确保生成的海洋指令数据具有更高质量。

为进一步确保数据质量，研究人员从生成的指令数据集中随机抽取 10% 样本，让培训后的领域专家志愿者验证这些样本是否存在潜在错误，最终数据的 IAA（标注者间一致性）得分为 0.82，满足研究目的。

如下图所示，DoInstruct 框架能够利用多 Agent 快速构建海洋科学数据集，可扩展超过 150,000 条指令 (Data-Evolving, Data-Extracting)，此外，数据的专业性和准确性也得到了保障。

在这里插入图片描述

最终指令数据集的统计数据

如下图所示，研究人员通过知识质量 (Quality)、专业性 (Expertise) 和多样性 (Diversity) 角度来衡量 DoInstruct 的数据生成效果。

在这里插入图片描述

不同 Agent 的性能分析

可以看出，evolving generator Agent 能够有效增强海洋数据的丰富性。extraction Agent 可以提升内容的专业性，inspector Agent 可以提高生成的数据质量。综上，多代理协作对于海洋指令生成是有效的。

基于 LLaMA-2，OceanGPT 在海洋任务中表现更优

在得到指令数据后，研究人员基于 LLaMA-2，用 6 块 Nvidia A800 GPU 对 OceanGPT 进行了为期 7 天的预训练 (Pre-training)。

在这里插入图片描述

OceanGPT 模型的总体框架

得到预训练模型 OceanGPT 后，研究人员采用 LoRA 方法对模型进行微调。为了评估大型语言模型 OceanGPT 在海洋学任务中的能力，研究人员选择 LLaMA-2 (Llama-2-7b-chat-hf)、Vicuna-1.5、ChatGLM2-6B 这 3 个模型与 OceanGPT 进行比较。

在进行对比之前，研究人员设计了一个基准测试 OCEANBENCH，据下图所示，该基准测试包括 15 个与海洋相关的任务，如 Analysis、Judgment 等。

在这里插入图片描述