AI模型开发平台是一款专为高校大模型教学和科研设计的一站式开发工具。平台允许用户自定义CPU和内存资源的调用,并灵活配置专用于大模型和深度学习任务的硬件加速器(如GPU或XPU),以高效执行大模型的提示工程、应用开发和微调操作。支持市场主流的AI算法开发框架,包括TensorFlow、PyTorch、PaddlePaddle、MindSpore、Scikit-Learn等,帮助用户快速开发和微调大模型。此外,平台提供丰富的大模型开发工具、完整的开发环境和资源监控功能,使用户能够灵活分配资源,轻松进行大模型应用的开发、使用和管理。
图1 AI模型开发平台
2.功能简介
3.产品特色
1.提供资源监控页面,用于综合显示系统的资源配置概况,包括CPU、GPU、内存、节点状态以及即时任务数据,轻松了解系统资源的状况和大模型任务的实时执行情况。
图2 资源看板
2.支持多种数据上传,如本地数据资源、非结构化数据或通用的表结构化数据,提供一系列数据管理功能,包括下载、重命名、移动和删除,同时可将数据文件共享至公共存储空间,其余用户可以复制和使用相同的数据。
图3 数据存储
图4 公共数据集
3.创建训练任务时,可以根据计算需求,灵活选择所需的CPU和GPU算力规格以及根据需求设定定时任务,完成任务创建。并提供多种任务管理功能,如查看所有任务、定时启动任务、复制任务、查看任务状态和执行进度、查看日志输出等。
图5 任务列表
图6 任务创建
4.支持管理单用户的多个开发环境,简化开发流程和资源分配。系统支持对包括Qwen-7B-Chat、ChatGLM2-6B、Vicuna-13B、Vicuna-7B、Baichuan2-7B、Baichuan2-13B、RWKV等在内的大模型进行微调。同时,用户可以复制现有的交互开发任务,快速创建并配置相似任务,从而省去重新设置环境的繁琐步骤。系统提供实时任务状态和进展监控,确保任务顺利执行。此外,用户可以随时停止正在运行的开发环境,以便释放资源或结束任务。
图7 交互开发环境管理
5.支持对CPU和GPU配额进行精确管理,管理员可根据具体需求分配特定的资源,确保资源公平分配并满足多样化的计算任务需求。平台兼容多种硬件加速器,包括国产算力卡、GPU、XPU等,涵盖昆仑芯、华为昇腾等多种硬件选择。根据大模型项目的要求,选择最适合的硬件配置,以优化性能,实现资源的高效利用,提升工作效率和任务执行的成功率,为用户提供卓越的计算体验。
图8 规格管理