集成学习案例二 (蒸汽量预测)

背景介绍

火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。
锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。

数据信息

数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量

评价指标

最终的评价指标为均方误差MSE,即: S c o r e = 1 n ∑ 1 n ( y i − y ∗ ) 2 Score = \frac{1}{n} \sum_1 ^n (y_i - y ^*)^2 Score=n11n(yiy)2

方法步骤

  • 导入package
  • 加载数据
  • 探索数据分布
    • 因为是传感器的数据,即连续变量,所以使用 kdeplot(核密度估计图) 进行数据的初步分析,即EDA。
    • 删除训练集数据分布和测试集数据分布不均的数据集。
    • 查看特征之间的相关性(相关程度)。
    • 进行降维操作,即将相关性的绝对值小于阈值的特征进行删除
    • 进行归一化操作
  • 特征工程
    • 绘图显示Box-Cox变换对数据分布影响,Box-Cox用于连续的响应变量不满足正态分布的情况。(Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。)
  • 模型构建以及集成学习
    • 构建训练集和测试集
    • rmse、mse的评价函数
    • 寻找离群值,并删除
    • 进行模型的训练
  • 进行模型的预测以及结果的保存

参考资料:

https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值