背景介绍
火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。
锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。
数据信息
数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量
评价指标
最终的评价指标为均方误差MSE,即: S c o r e = 1 n ∑ 1 n ( y i − y ∗ ) 2 Score = \frac{1}{n} \sum_1 ^n (y_i - y ^*)^2 Score=n11∑n(yi−y∗)2
方法步骤
- 导入package
- 加载数据
- 探索数据分布
- 因为是传感器的数据,即连续变量,所以使用 kdeplot(核密度估计图) 进行数据的初步分析,即EDA。
- 删除训练集数据分布和测试集数据分布不均的数据集。
- 查看特征之间的相关性(相关程度)。
- 进行降维操作,即将相关性的绝对值小于阈值的特征进行删除
- 进行归一化操作
- 特征工程
- 绘图显示Box-Cox变换对数据分布影响,Box-Cox用于连续的响应变量不满足正态分布的情况。(Box-Cox变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。)
- 模型构建以及集成学习
- 构建训练集和测试集
- rmse、mse的评价函数
- 寻找离群值,并删除
- 进行模型的训练
- 进行模型的预测以及结果的保存
参考资料:
https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning