机器学习实战 —— 工业蒸汽量预测（一）

ZShiJ

已于 2024-05-07 18:01:21 修改

阅读量995

点赞数 20

分类专栏：机器学习文章标签：机器学习人工智能

于 2024-04-30 15:52:19 首次发布

本文链接：https://blog.csdn.net/m0_53054984/article/details/138224960

版权

机器学习专栏收录该内容

18 篇文章 0 订阅

订阅专栏

🌟欢迎来到 我的博客 —— 探索技术的无限可能！

🌟博客的简介（文章目录）

文章描述

数据分析：查看变量间相关性以及找出关键变量。
机器学习实战 —— 工业蒸汽量预测（一）
数据特征工程对数据精进：异常值处理、归一化处理以及特征降维。
机器学习实战 —— 工业蒸汽量预测（二）
模型训练(涉及主流ML模型)：决策树、随机森林，lightgbm等。
机器学习实战 —— 工业蒸汽量预测（三）
模型验证：评估指标以及交叉验证等。
机器学习实战 —— 工业蒸汽量预测（四）
特征优化：用lgb对特征进行优化。
机器学习实战 —— 工业蒸汽量预测（五）
模型融合：进行基于stacking方式模型融合。
机器学习实战 —— 工业蒸汽量预测（六）

背景描述

背景介绍

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

相关描述

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

结果评估

预测结果以mean square error作为评判标准。

数据说明

数据分成训练数据（train.txt）和测试数据（test.txt），其中字段”V0”-“V37”，这38个字段是作为特征变量，”target”作为目标变量。选手利用训练数据训练出模型，预测测试数据的目标变量，排名结果依据预测结果的MSE（mean square error）。

数据来源

http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_test.txt

http://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/Industrial_Steam_Forecast/zhengqi_train.txt

实战内容

1.数据分析

导入模块

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

import warnings
warnings.filterwarnings("ignore")
 
%matplotlib inline

读取数据文件
使用Pandas库read_csv()函数进行数据读取，分割符为‘\t’

train_data_file = "./zhengqi_train.txt"
test_data_file =  "./zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

1.1 查看数据信息

查看特征变量信息

train_data.info()

在这里插入图片描述

可以看到训练集数据共有2888个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型，所有数据特征没有缺失值数据。

数据字段由于采用了脱敏处理，删除了特征数据的具体含义。其中target字段为标签变量。

test_data.info()

在这里插入图片描述

测试集数据共有1925个样本，数据中有V0-V37共计38个特征变量，变量类型都为数值类型

查看数据统计信息：

train_data.describe()

在这里插入图片描述

test_data.describe()

在这里插入图片描述

上面数据显示了数据的统计信息，例如样本数，数据的均值mean，标准差std，最小值，最大值等

查看数据字段信息：

train_data.head()

在这里插入图片描述

test_data.head()

在这里插入图片描述

1.2 可视化探索数据

在这里插入图片描述

箱式图

在这里插入图片描述

查看数据分布图

查看特征变量‘V0’的数据分布直方图，并绘制Q-Q图查看数据是否近似于正态分布

在这里插入图片描述

查看查看所有数据的直方图和Q-Q图，查看训练集的数据是否近似于正态分布

在这里插入图片描述

由上面的数据分布图信息可以看出，很多特征变量（如’V1’,‘V9’,‘V24’,'V28’等）的数据分布不是正态的，数据并不跟随对角线，后续可以使用数据变换对数据进行转换。

对比同一特征变量‘V0’下，训练集数据和测试集数据的分布情况，查看数据分布是否一致

在这里插入图片描述

查看所有特征变量下，训练集数据和测试集数据的分布情况，分析并寻找出数据分布不一致的特征变量。

在这里插入图片描述

查看特征’V5’, ‘V17’, ‘V28’, ‘V22’, ‘V11’, 'V9’数据的数据分布

在这里插入图片描述

由上图的数据分布可以看到特征’V5’,‘V9’,‘V11’,‘V17’,‘V22’,‘V28’ 训练集数据与测试集数据分布不一致，会导致模型泛化能力差，采用删除此类特征方法。

# 合并训练集和测试集数据，并可视化训练集和测试集数据特征分布图
drop_columns = ['V5','V9','V11','V17','V22','V28']

可视化线性回归关系

查看特征变量‘V0’与’target’变量的线性回归关系

在这里插入图片描述

1.2.1 查看变量间线性回归关系

在这里插入图片描述

1.2.2 查看特征变量的相关性

在这里插入图片描述

画出相关性热力图

在这里插入图片描述

找出相关程度

在这里插入图片描述

上图为所有特征变量和target变量两两之间的相关系数，由此可以看出各个特征变量V0-V37之间的相关性以及特征变量V0-V37与target的相关性。

1.2.3 查找重要变量

查找出特征变量和target变量相关系数大于0.5的特征变量

寻找K个最相关的特征信息

在这里插入图片描述

drop_columns.clear()
drop_columns = ['V5','V9','V11','V17','V22','V28']
threshold = 0.5
corr_matrix = data_train1.corr().abs()
drop_col=corr_matrix[corr_matrix["target"]<threshold].index

由于’V14’, ‘V21’, ‘V25’, ‘V26’, ‘V32’, ‘V33’, 'V34’特征的相关系数值小于0.5，故认为这些特征与最终的预测target值不相关，删除这些特征变量；

train_x =  train_data.drop(['target'], axis=1)
data_all = pd.concat([train_x,test_data]) 
data_all.drop(drop_columns,axis=1,inplace=True)
data_all.head()

在这里插入图片描述

cols_numeric=list(data_all.columns)
def scale_minmax(col):
    return (col-col.min())/(col.max()-col.min())

data_all[cols_numeric] = data_all[cols_numeric].apply(scale_minmax,axis=0)
data_all[cols_numeric].describe()

在这里插入图片描述

图1

在这里插入图片描述

图2

在这里插入图片描述

ZShiJ

关注

20
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习实战 —— 工业蒸汽量预测（一）

燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。数据分析：查看变量间相关性以及找出关键变量。数据特征工程对数据精进：异常值处理、归一化处理以及特征降维。模型训练(涉及主流ML模型)：决策树、随机森林，lightgbm等。模型验证：评估指标以及交叉验证等。特征优化：用lgb对特征进行优化。模型融合：进行基于stacking方式模型融合。
复制链接

扫一扫