【技术】DTEmpower核心功能技术揭秘(6) - autoML超参优化技术

概述

在上一篇我们围绕着如何让算法不断逼近机器学习模型上限这个问题,介绍了AIAgent智能训练算法,本系列的第六篇主题将继续针对该问题介绍autoML超参优化技术。

在数据建模分析的实际应用中,算法中的一些超参数会对最终模型产生重要的影响,因此工程师需要做大量的参数调试工作,以期找到精度最高的模型。但是这个过程往往会花费大量的时间和人力成本。

DTEmpower针对此问题,不仅集成有大量的回归算法可供用户选择,对于每个训练算法还集成了超参优化功能以节省用户的超参数调试过程。同时以其良好的用户交互界面,降低了用户的使用门槛。

图1  DTEmpower中每个算法节点都集成有超参优化功能,用户只需要打开“超参优化”功能按钮,即可在省去大量超参数调试过程的同时,获取精度较高的模型

基于DTEmpower的超参优化建模实战 

1. 风机测点结构应力快速评

① 数据集介绍:某头部风机制造商提供的结构应力评估数据集,含有15维输入特征,共2400个样本,目标是快速评估测点的结构应力。

② 建模方法:根据图2所示的建模流程,采用GBDT(Gradient Boosting Decision Tree)梯度提升树算法进行模型训练,分别在开启和不开启超参优化功能的条件下进行对比实验。

图2 基于DTEmpower软件平台的风机测点结构应力快速评估建模方案,选取了GBDT算法建立输入输出变量的映射关系。其中超参优化功能在算法节点的属性配置界面,用户只需点击相应按钮即可一键开启或关闭超参优化功能,非常便于使用

③ 实验分析:观察超参优化功能的打开和关闭对最终模型的影响。图3-1、3-2的实验结果表明,仅开启算法节点的超参优化功能,即可有效的提高模型精度,降低模型的预测误差。

图3-1 GBDT算法开启超参优化和不开启超参优化的预测值和真实值对比,可以看出开启超参优化的算法预测值(图中绿色折线)和真实值(红色折线)总体上更加接近

图3-2 GBDT算法在两种情况下的预测误差分布,误差分布的提琴图清晰的表明了开启有超参优化的算法预测误差分布更向0值靠拢。结合图3-1充分说明了超参优化功能在提高模型精度、降低预测误差方面的优越性

2. 电厂水处理系统参数预测

① 数据集介绍:来源于某电厂污水处理系统的流量、压差、浊度等时序数据,含有50+特征变量,共21000个样本,目标是预测水处理设备未来一段时间内的出口浊度。

② 建模和实验方法:采用图4所示的建模流程,选取MDI+PCA作为降维工具,并使用GBDT和随机森林2种算法用以训练出口浊度预测模型。对每个算法节点分别开启和关闭超参优化功能,观察模型的精度变化。

图4 基于DTEmpower软件平台的水处理系统参数长窗预测建模方案,方案中选取2种常见算法进行模型的训练。DTEmpower提供了一站式的数据建模解决方案,通过简单的节点拖拽即可搭建完整的建模流程,其中超参优化功能更是集成于每一个算法节点,能够很方便的节省用户的调参过程

③ 实验分析:观察超参优化功能的打开和关闭对最终模型的影响。图5所示的实验结果充分表明了超参优化对于提高模型精度的优越性。

图5 基于2种算法的参数预测模型的R2指标(左图)和MAE指标(右图)随超参优化功能的变化趋势,可以看到开启超参优化功能后,模型的R2精度指标(越大表示模型精度越高)显著提升,同时MAE指标(越小表示模型精度越高)显著下降。这表明超参优化能够有效的提升模型精度,降低泛化误差

总结 

数据和特征决定了模型的上限,要让算法不断逼近这个上限,需要调试大量的算法超参数。DTEmpower集成了低门槛的autoML超参优化功能,可以帮助用户节省大量的调参过程。

通过实际工业场景中的应用案例和对比实验,也证明了autoML功能模块能轻松、有效寻找算法节点的最优超参数,可高效地辅助用户构建高精度模型。

DTEmpower软件平台提供的数据挖掘、特征工程和模型自动学习等一站式解决方案,不仅可以帮助用户快速、便捷地构建精度较高的数据模型,其技术的创新应用势必会给工业数据研究者持续带来福音。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值