一年前听说scikit-learn这个机器学习库,当时正在考研,一直没有机会用一下,正好这次要写《数据挖掘》的课程论文,需要使用机器学习算法,自己写一个算法,时间根本来不及,所以就想起这个库啦。下面的内容是我整理过后的,并不是严格按照论文的思维模式写的。
1 简介
本篇文章尝试并比较了一些机器学习回归算法拟合出一个预测模型,希望这个模型能够预测出每小时的满载电力。电厂的基本负荷运行受四个主要参数的影响,环境温度、气压、相对湿度和排汽压力。这些变量影响了电力的输出,这里电力的输出作为目标变量。这篇文章的数据来自于是一家电厂过去六年的数据,包括输入变量(影响结果的参数)和目标变量。首先,在本文中首先在所给数据中找出最优的子集,即主要的特征。接下来,找出性能最优的回归方法,通过这种回归方法能够最好的预测出满负荷电力的输出。
整个过程如下: