01 平台环境:创建模型训练服务
(对 iMaster NAIE 训练平台有一个简单的认识,熟悉工作界面与实验环境。)
- 进入https://console.huaweicloud.com/naie/网址。
- 依次选择“AI 服务 > 平台服务 > 训练平台 > 模型训练服务”,进入模型训练服务介绍页面。
- 需要华为云主账号购买“模型训练服务”,然后才能进入“模型训练服务”中。
- 选择 北京- 四。
工作流程
利用iMaster NAIE训练平台进行数据建模总共分为6大步骤:
- 创建工程,数据集,特征工程,模型训练,模型管理,模型验证。
创建工程:
- 完成项目的创建,一个数据建模对应一个项目,每个项目平台会分配一定的计算资源。
数据集:
- 数据集主要为训练平台提供统一的数据管理能力。
- 数据集可以提供给特征工程处理,提取关键特征供,也可以直接应用于模型训练。
特征工程:
- 用户可以通过特征工程对数据集进行数据处理、特征组合、特征转换等特征处理,最大限度的从原始数据中提取特征以模型训练使用。
- iMaster NAIE训练平台的特征工程操作包括数据准备、特征选择、特征降维、特征构建以及单列特征工程操作。
模型训练:
- iMaster NAIE训练平台为用户预置了多种计算框架,集成了基于开源的交互式开发调试工具,为用户提供一站式IDE模型训练环境。
- 模型训练包括算法创建和模型训练两个模块。
- 算法创建模块支持用户在线编辑并调试算法。
- 模型训练基于编译后的算法对训练数据集进行训练,训练报告通过图表、数值、表格三种方式展示。用户可以根据训练结果对算法进行调优再训练,直到得到最优的训练算法。
模型管理:
- 模型管理中可以查看模型包的详细信息、将模型包编排成应用包、发布应用包到应用市场、基于模型包创建模型验证服务和训练服务。
模型服务:
- 模型验证服务是基于打包好的模型包,重新设置参数(计算节点规格、计算节点个数、环境变量等)进行训练,用户输入验证报文,然后根据返回结果判断当前模型包的好坏。重点在于模型包的验证。训练服务是基于用户选择的模型包,调用模型包对新的数据集以及超参进行训练。重点在于应用。
硬盘故障检测流程
02 硬盘故障检测模型构建
场景描述 | 业务目标
- 数据中心硬件故障中有48%为硬盘故障,且在故障发生后才感知,极大影响运维效率和成本;
- 缺乏有效预测手段,无法提前有计划进行硬件迁移,硬盘长期处于亚健康状态影响业务性能。
基于硬盘SMART特征,通过机器学习实现硬盘故障提前预测故障时间点,估算数据修复窗口,根据负载制定修复计划,提前进行修复操作。
- FDR=False Detection Rate,查全率,即一块硬盘实际为坏盘,而模型预测为坏盘的概率;
- FAR=False Alarm Rate,误报率,即一块硬盘实际为好盘,而模型预测为坏盘的概率;
- 硬盘Case的业务目标为: FAR<= 0.1%, FDR > 80%。
实验数据:
算法介绍
该场景目标为检测硬盘中哪些是故障类的硬盘,属于应该硬盘故障检测,从机器学习的角度来讲,属于分类算法。本实验以lightGBM算法来实现故障硬盘的分类检测,LightGBM(Light Gradient Boosting Machine) 是一款基于决策树算法的分布式梯度提升框架。该算法速度快,效果好。 其设计思路主要是两点:
1、减小数据对内存的使用,保证单个机器在不牺牲速度的情况下,尽可能地用上更多的数据;
2、减小通信的代价,提升多机并行时的效率,实现在计算上的线性加速。由此可见,LightGBM的设计初衷就是提供一个快速高效、低内存占用、高准确度、支持并行和大规模数据处理的数据科学工具。
- 进入服务:首页AI服务 > 平台服务 > 模型训练服务
- 创建项目
03 数据集(数据管理)
- 导入数据
04 特征工程(数据预处理)
特征构造
import os
os.chdir("/home/ma-user/work/DISK-DETECT-handle")
from naie import _context as context
from naie.datasets import data_reference
from naie