通过Keras + LSTM训练天气污染程度预测模型

最新推荐文章于 2024-04-28 16:25:40 发布

一摩尔自由

最新推荐文章于 2024-04-28 16:25:40 发布

阅读量1.4w

点赞数 8

分类专栏：机器学习 NLP

本文链接：https://blog.csdn.net/Barry_J/article/details/98885787

版权

本文介绍了如何使用Keras和LSTM建立时间序列预测模型，针对北京2010-2014年的空气质量数据，通过数据清洗、归一化处理，构建多变量LSTM模型进行污染程度预测。内容包括数据预处理、模型构建和效果评估。

摘要由CSDN通过智能技术生成

0 前言
在上文中进行ARIMA时序预测后，了解到强大的LSTM在处理时序预测有更为优秀的表现，因此对LSTM进行了学习。

LSTM是一种时间递归神经网络，它出现的原因是为了解决RNN的一个致命的缺陷。原生的RNN会遇到一个很大的问题，叫做The vanishing gradient problem for RNNs，也就是后面时间的节点会出现老年痴呆症，也就是忘事儿，这使得RNN在很长一段时间内都没有受到关注，网络只要一深就没法训练。而LSTM网络具有“记忆性”，其原因在于不同“时间点”之间的网络存在连接，而不是单个时间点处的网络存在前馈或者反馈；并且LSTM擅长于处理多个变量的问题，该特性使其有助于解决时间序列预测问题。

关于LSTM原理，初学者可以通过以下几篇文章简单了解一下，：

https://www.toutiao.com/a6502203093856289294/

https://zybuluo.com/hanbingtao/note/581764

本文内容取自Jason Brownlee的《Multivariate Time Series Forecasting with LSTMs in Keras》一文。在接下来的这篇博客中，你将学会如何利用深度学习库Keras搭建LSTM模型来处理多个变量的时间序列预测问题。

关于如何搭建Keras请看《windows下安装Keras（CPU版）》一文。

阅读完本文后你将会掌握：

如何将原始数据转化为适合处理时序预测问题的数据格式；
如何准备数据并搭建LSTM来处理时序预测问题；
如何利用模型预测。
1 空气污染预测
　　在这篇博客中，我们将采用空气质量数据集。数据来源自位于北京的美国大使馆在2010年至2014年共5年间每小时采集的天气及空气污染指数。
　　数据集包括日期、PM2.5浓度、露点、温度、风向、风速、累积小时雪量和累积小时雨量。原始数据中完整的特征如下：

1.No 行数
2.year 年
3.month 月
4.day 日
5.hour 小时
6.pm2.5 PM2.5浓度
7.DEWP 露点
8.TEMP 温度
9.PRES 大气压
10.cbwd 风向
11.lws 风速
12.ls 累积雪量
13.lr 累积雨量

我们可以利用此数据集搭建预测模型，利用前一个或几个小时的天气条件和污染数据预测下一个（当前）时刻的污染程度。

可以在UCI Machine Learning Repository下载数据集。也可以点击此处下载Beijing PM2.5 Data Set。

2 数据处理

第一步，我们必须清洗数据。以下是原始数据集的前几行。

No,year,month,day,hour,pm2.5,DEWP,TEMP,PRES,cbwd,Iws,Is,Ir
1,2010,1,1,0,NA,-21,-11,1021,NW,1.79,0,0
2,2010,1,1,1,NA,-21,-12,1020,NW,4.92,0,0
3,2010,1,1,2,NA,-21,-11,1019,NW,6.71,0,0
4,2010,1,1,3,NA,-21,-14,1019,NW,9.84,0,0
5,2010,1,1,4,NA,-20,-12,1018,NW,12.97,0,0

第一步是将日期时间信息整合为一个日期时间，以便我们可以将其用作Pandas的索引。我们需要快速显示前24小时的pm2.5的NA值。因此，我们需要删除第一行数据。在数据集中还有几个分散的“NA”值；我们现在可以用0值标记它们。

以下脚本加载原始数据集，并将日期时间信息解析为Pandas Data Frame索引。“No”列被删除，然后为每列指定更清晰的名称。最后，将NA值替换为“0”值，并删除前24小时。

from pandas import read_csv
from datetime import datetime
# load data
def parse(x):
    return datetime.strptime(x, '%Y %m %d %H')
dataset = read_csv('raw.csv',  parse_dates = [['year', 'month', 'day', 'hour']], index_col=0, date_parser=parse)
dataset.drop('No', axis=1, inplace=True)
# manually specify column names
dataset.columns = ['pollution', 'dew', 'temp', 'press', 'wnd_dir', 'wnd_spd', 'snow', 'rain']
dataset.index.name = 'date'
# mark all NA values with 0
dataset['pollution'].fillna(0, inplace=True)
# drop the first 24 hours
dataset = dataset[24:]
# summarize first 5 rows
print(dataset.head(5))
# save to file
dataset.to_csv('pollution.csv')

运行该示例打印转换的数据集的前5行，并将数据集保存到“pollution.csv”。