客户介绍

 南京农业大学是一所以农业和生命科学为优势和特色,农、理、经、管、工、文、法学多学科协调发展的教育部直属 全国重点大学,是国家“211工程”重点建设大学、“985优势学科创新平台”和“双一流”建设高校。

为适应新一轮科技革命发展,精准服务国家现代农业发展战略需求,南京农业大学正致力于建设一流的农业领域人工智能应用基地和人才培养基地,以自身实践探索农业领域人工智能内涵式发展新道路。

合作背景

2022年,南京农业大学信息管理科学系牵头集中采购了一批高性能GPU服务器、分布式存储、IB交换机设备,用于建设面向全校师生使用的人工智能平台,希望能够为全校师生提供高性能、便捷易用、低成本的AI算力服务。

在建设之初,院系老师就考虑到昂贵的GPU算力资源在面向全校师生旺盛的需求时,可能出现资源紧张的问题,所以在技术、产品的选型过程中,对GPU资源如何高效的管理、分配、使用、回收全流程生命周期的能力尤为看重。另外,一套包含人员、数据、模型的管理及AI模型开发训练、资源管理、轻便运维能力的高效AI算力服务平台,也是重点考察的指标。

解决方案

趋动科技的OrionX AI算力资源池化软件+Gemini AI开发训练平台整体方案刚好满足需求。

OrionX通过共享AI算力,解决客户以往AI应用或CUDA应用独占GPU算力资源的问题,OrionX 将所有的 AI 算力硬件池化后,将其虚拟成众多 颗粒度可灵活调整的OrionX vGPU,随时为 AI/CUDA 应用提供 AI 加速能力,大幅提升资源利用率。

同时Gemini AI开发训练平台提供强大的AI资源管理服务,通过优化 AI 场景下 IO 吞吐、持久化、结构化维护模型生产信息以及数据资源共享路径,大幅提高开发者的工作效率。

方案落地

南京农业大学 王东波教授团队将人工智能技术应用在 古籍研究领域,创新性地发布了荀子古籍大语言模型产品,它是一款专门用于古籍信息处理的基座模型、对话模型与 智能代理为主要目标的开源的、公益的古籍大语言模型。欢迎大家使用反馈: https://github.com/Xunzi-LLM-of-Chinese-classics/XunziALLM


从古籍到AI:南京农业大学在智能研究领域的突破_AI

图1. 荀子古籍大语言模型示意图

荀子古籍大语言模型的整个研发过程都在OrionX AI算力资源池化软件+Gemini AI开发训练平台的保障下进行。OrionX为客户提供强大的AI算力管理服务,Gemini提供高效的算法开发和训练支持,共同加速了荀子古籍大语言模型的开发及训练进程。

从古籍到AI:南京农业大学在智能研究领域的突破_池化_02

图2. AI科研平台整体架构

OrionX AI算力资源池化软件+Gemini AI开发训练平台整体方案架构如图2所示,其核心能力包括GPU资源池化、与外部高性能存储对接、一站式模型协同开发、训练、管理等,这些能力在荀子古籍大语言模型的研发过程中得到了充分体现。

◾ 首先,GPU资源池化技术大大提高了资源利用率。超过二十位同学参与了荀子古籍大语言模型的开发工作,OrionX在模型开发的过程中将单卡切分8~10份,确保每人都有足够的算力对代码进行开发、调试,同时提升资源利用率。

项目组只有24张GPU卡,荀子古籍大语言模型的参数量达6B,在训练过程中,需要大量的计算资源。OrionX将GPU资源统一管理,形成大资源池,通过多机分布式、跨机聚合等功能,整合多台服务器上的GPU资源,形成强大的计算能力,从而加速模型训练的效率,将原先单机训练需要的3~5天缩短到只需要1~2天,极大地提高了训练速度,节省大量的时间。

荀子古籍大语言模型单精度推理大约需要16G显存,同样通过单卡切分,单卡支撑多个推理验证任务,进行功能验证。一套算力资源池便可以支撑开发、训练、推理全流程。


从古籍到AI:南京农业大学在智能研究领域的突破_语言模型_03

图3. AI算力资源池架构

◾ 其次,Gemini AI开发训练平台通过对接外部高性能存储,提供了方便工程师管理多种数据的能力。在荀子古籍大语言模型的研发、训练过程中,需要处理大量的TXT纯文本数据,Gemini AI开发训练平台的存储管理能力,使得工程师能够高效地管理这些数据,为模型的训练提供了数据支持。训练的模型数据在外部存储中集中管理、共享使用,避免重复数据浪费存储资源。

从古籍到AI:南京农业大学在智能研究领域的突破_GPU_04

图4. 数据管理能力

◾ 同时,Gemini AI开发训练平台的协同开发能力也为荀子古籍大语言模型的研发团队提供了诸多便利。在模型的开发过程中,算法工程师之间需要频繁地交流、分享资源与成果。Gemini AI开发训练平台提供了强大的协同工作能力,每位同学都在公共的项目中集中开发,Gemini平台集成了代码管理功能,同学们各自创建代码仓库、分支、版本,配置共享属性,完成开发后代码快速合并,方便大家能够更加高效地完成模型开发工作。

从古籍到AI:南京农业大学在智能研究领域的突破_语言模型_05

图5. 模型开发能力

方案收益

通过整体方案的实施,南京农业大学成功搭建高隔离、易运维的高校自动化AI科研平台,达成了以下收益:

◾ 对GPU细粒度的切分,支持多学生同时使用,提高利用率。

◾ 构建统一的、软件定义的GPU资源池,静态分配变成动态分配,动态回收,运维效率翻倍。

◾ 统一门户,多租户,二级权限分配,同时满足多学院、多学科、校内校外各类使用场景。

◾ 对接已有存储,全方位管理各种资源,统一监控运维。

客户评价

趋动提供的整体解决方案,为大家提供了高效的算法开发和训练支持。通过算力池化技术,帮助我们将现有算力资源发挥到最大效能,单张A800 GPU 通过切分,可以给8~10位同学创建开发环境使用。通过多机分布式、跨机聚合等功能保证大模型有充足的GPU算力进行训练,让有限的算力资源一直保持高效、充分的使用。将原先单机需要3~5天的训练任务缩短到只需要1~2天,极大地提高了训练速度,节省大量的时间,保证了项目最终顺利按时落地,形成科研成果。

-南京农业大学信息管理学院丨叶老师

合作展望

未来,趋动科技会持续为南京农业大学提供良好的AI算力平台技术支持和产品服务,助力南京农业大学在农业科学研究、智能化农业生产、农业大数据分析等领域取得更多突破,实现农业科技创新和领域特色人才培养。