GB/T 43782-2024 “人工智能 机器学习系统技术要求”(Artificial intelligence—Technical requirements for machine learning system)。是我国制定的一项国家标准,旨在为机器学习系统的构建、评估、选用及验收提供一套全面、严谨的技术规范。此标准详细阐述了机器学习系统的整体架构、核心功能、可靠性、维护性、兼容性、安全性和可扩展性等多个维度的技术要求,旨在推动我国人工智能产业规范化、标准化发展,确保机器学习系统在各领域的高效、安全、稳定应用。
一、系统框架
GB/T 43782-2024明确指出,机器学习系统由机器学习服务、机器学习框架、运行时组件、工具集以及运维管理组件等关键部分组成。其中,机器学习服务作为对外接口,提供人工智能应用与系统资源之间的交互途径;机器学习框架则涵盖了模型训练、模型推理及算法库三大模块,为应用开发、优化、验证和部署提供全方位支撑;运行时组件作为底层软件环境,确保机器学习任务在特定硬件上的顺利运行;工具集则包含数据管理、模型管理、开发环境及模型编译器等工具,为全流程开发提供便利;运维管理组件则负责系统的日常运营与维护,确保其稳定、高效运转。
二、功能要求
- 机器学习运行时组件:需具备基础软件组件、设备管理与资源调度能力、优化算子库、算子级执行控制与调度优化、访问权限控制与资源隔离、计算资源虚拟化与调度、多框架模型格式解析以及集合通信库支持等特性,以保障算法程序的正常运行和高效执行。
- 机器学习框架:
○ 模型训练:应具备用户自定义数据处理、模型开发、全连接层与激活函数调用、训练过程信息获取、多种执行模式、分布式并行能力、数据处理回调以及自动混合精度训练等功能。
○ 模型推理:要求具备云侧与端侧统一中间表示、多后端设备推理、多语言接口、并发推理能力以及推理加速优化等功能。
○ 算法库:需提供模型评价函数、损失函数、优化器算法、张量操作、激活函数及数学运算函数等,以支持模型的开发、优化与验证。 - 机器学习服务组件:应具备通用算法服务、人工智能功能、单机与远程实时服务、统一服务框架与接口、常见消息报文体格式、多实例部署、并发调用、多用户使用、独立部署与扩容、服务容错及可扩展性等功能,确保系统对外服务的高效、稳定和灵活。
三、工具
- 数据管理工具:需涵盖各类数据源对接、多形态数据采集、数据生存周期管理、数据增删改查与检索、权限控制、版本控制、敏感数据溯源管理、数据诊断、相似度检测、元数据管理、数据预处理、数据组合、数据集版本管理、多人协同标注、数据分析统计及推理结果回传等功能,以实现对人工智能数据全生命周期的有效管理。
- 模型管理工具:应具备模型导入导出、更新、版本管理、权限控制、二次训练、模型封装与发布、超参数设置、模型信息展示、建模方式多样性、协同建模、模型分析报告等特性,助力模型的高效创建、管理与应用。
- 开发环境:应提供API与图编排方式的应用开发、单步调试、自定义算子开发与性能分析、模型压缩与转换、模型显示输出、一站式应用集成开发、图形界面调试、边云协同服务插件开发及算子开发自动调优等工具,打造全面、便捷的开发体验。
- 模型编译器:需具备计算过程的图级与算子级编译、模型与算子自动映射、编译优化、自定义算子注册与编译、计算图自动切分、编译结果存储与载入、定制优化规则接入及编译参数自动寻优等功能,以提升模型在不同硬件平台上的执行效率。
四、运维管理
运维管理功能要求包括多用户与租户管理、权限管理、安装升级与回滚、备份恢复、环境监控、日志管理、报警功能以及主要监控指标可视化展示,旨在确保系统的稳定运行、故障快速定位与恢复,以及满足多用户、多租户环境下资源的有效隔离与管理需求。
五、可靠性要求
可靠性要求关注任务执行状态跟踪、异常提示、持续服务提供与恢复、容错机制、错误提示、过载控制、故障诊断、隔离能力以及状态文件冗余备份与容灾,旨在构建具备高可靠性的机器学习系统,有效应对各种异常情况,保障服务连续性。
六、维护性要求
维护性要求涵盖数据集对算法结果影响分析、性能度量与验证方法、代码正确性分析、环境干扰影响分析以及异常数据存储与导出,旨在促进系统的持续改进与优化,确保其长期稳定、高效运行。
七、兼容性要求
- 软件兼容性:要求服务兼容性、不依赖特定软件环境、可移植性、主流操作系统兼容性、开源接口兼容性、模块间及内部接口互操作、异源数据转换、多场景应用兼容性,确保系统在多元软件环境中无缝集成与运行。
- 硬件兼容性:要求兼容多种计算单元、存储系统、网络连接方式及计算平台,确保系统能够在多样化的硬件环境中高效部署与运行。
八、安全性要求
安全性要求涉及访问权限管理、对抗样本攻击防御、访问历史查询、权重文件保护、任务状态日志记录、分布式任务鉴别与加密通信、模型可解释性、差分隐私训练、模型与任务稳健性评估以及非法输入屏蔽,旨在构建安全、可信的机器学习系统,有效防范各类安全威胁。
九、可扩展性要求
可扩展性要求包括标准格式接口、模型部署标准流程以及机器学习生存周期管理工具,旨在确保系统能够随着业务需求的变化而灵活扩展,降低维护成本,提高系统整合效率。
综上所述,《人工智能—机器学习系统技术要求》(GB/T 43782-2024)为我国机器学习系统的建设提供了全面、细致的技术指导,有助于提升系统的技术水平、服务质量及市场竞争力,有力推动我国人工智能产业的标准化、规范化进程,促进其在各领域的广泛应用与深入发展。