【RNN入门到实战】LSTM从入门到实战——实现空气质量预测

最新推荐文章于 2024-10-12 22:32:16 发布

2401_84139624

最新推荐文章于 2024-10-12 22:32:16 发布

阅读量972

点赞数 13

分类专栏： 2024年程序员学习文章标签： rnn lstm 人工智能

本文链接：https://blog.csdn.net/2401_84139624/article/details/137804290

版权

2024年程序员学习专栏收录该内容

104 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Python知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024c （备注Python）

正文

输出层门

作用对象：隐层 h t h_t ht

作用：确定输出什么值。

操作步骤：

步骤一：通过sigmoid 层来确定细胞状态的哪个部分将输出。

步骤二：把细胞状态通过 tanh 进行处理，并将它和 sigmoid 门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。

其示意图如下所示：

在这里插入图片描述

动图演示

在这里插入图片描述

实战——使用LSTM实现空气质量预测

=============================================================================

数据来源自位于北京的美国大使馆在2010年至2014年共5年间每小时采集的天气及空气污染指数。

数据集包括日期、PM2.5浓度、露点、温度、风向、风速、累积小时雪量和累积小时雨量。原始数据中完整的特征如下：

1.No 行数

2.year 年

3.month 月

4.day 日

5.hour 小时

6.pm2.5 PM2.5浓度

7.DEWP 露点

8.TEMP 温度

9.PRES 大气压

10.cbwd 风向

11.lws 风速

12.ls 累积雪量

13.lr 累积雨量

我们可以利用此数据集搭建预测模型，利用前一个或几个小时的天气条件和污染数据预测下一个（当前）时刻的污染程度。

数据处理

首先，我们必须清洗数据。以下是原始数据集的前几行。

No year month day hour pm2.5 DEWP TEMP PRES cbwd Iws Is Ir

0 1 2010 1 1 0 NaN -21 -11.0 1021.0 NW 1.79 0 0

1 2 2010 1 1 1 NaN -21 -12.0 1020.0 NW 4.92 0 0

2 3 2010 1 1 2 NaN -21 -11.0 1019.0 NW 6.71 0 0

3 4 2010 1 1 3 NaN -21 -14.0 1019.0 NW 9.84 0 0

4 5 2010 1 1 4 NaN -20 -12.0 1018.0 NW 12.97 0 0

5 6 2010 1 1 5 NaN -19 -10.0 1017.0 NW 16.10 0 0

6 7 2010 1 1 6 NaN -19 -9.0 1017.0 NW 19.23 0 0

7 8 2010 1 1 7 NaN -19 -9.0 1017.0 NW 21.02 0 0

8 9 2010 1 1 8 NaN -19 -9.0 1017.0 NW 24.15 0 0

9 10 2010 1 1 9 NaN -20 -8.0 1017.0 NW 27.28 0 0

数据理清的步骤：

1、将year, month, day, hour四列整合为一个日期时间。

2、删除No列，这个列对于数据预测没有作用，如果有作用说明见鬼了。

3、将数据集中所有的NaN设置为0，NaN没有办法用来计算。

4、删除前24行，前24行的pm2.5没有记录，留着没有用。

完整的代码如下：

from pandas import read_csv

from datetime import datetime

load data

def parse(x):

return datetime.strptime(x, ‘%Y %m %d %H’)

读取数据，将year, month, day, hour四列合并成一列。

dataset = read_csv(‘raw.csv’, parse_dates = [[‘year’, ‘month’, ‘day’, ‘hour’]], index_col=0, date_parser=parse)

删除No列

dataset.drop(‘No’, axis=1, inplace=True)

修改列名

dataset.columns = [‘pollution’, ‘dew’, ‘temp’, ‘press’, ‘wnd_dir’, ‘wnd_spd’, ‘snow’, ‘rain’]

dataset.index.name = ‘date’

print(dataset)

将所有的NaN设置为0

dataset[‘pollution’].fillna(0, inplace=True)

删除前24行

dataset = dataset[24:]

浏览前5行数据

print(dataset.head(5))

save to file

dataset.to_csv(‘pollution.csv’)

加载了“pollution.csv”文件，并对除了类别型特性“风速”的每一列数据分别绘图。

dataset = pd.read_csv(‘pollution.csv’, header=0, index_col=0)

values = dataset.values

specify columns to plot

groups = [0, 1, 2, 3, 5, 6, 7]

i = 1

plot each column

pyplot.figure(figsize=(10, 10))

for group in groups:

pyplot.subplot(len(groups), 1, i)

pyplot.plot(values[:, group])

pyplot.title(dataset.columns[group], y=0.5, loc=‘right’)

i += 1

pyplot.show()

运行上面的代码，并对7个变量在5年的范围内绘图。在这里插入图片描述

利用sklearn的预处理模块对类别特征“风向”进行编码，当然也可以对该特征进行one-hot编码。接着对所有的特征进行归一化处理，然后将数据集转化为有监督学习问题，同时将需要预测的当前时刻（t）的天气条件特征移除，代码如下：

def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):

convert series to supervised learning

n_vars = 1 if type(data) is list else data.shape[1]

df = pd.DataFrame(data)

cols, names = list(), list()

input sequence (t-n, … t-1)

for i in range(n_in, 0, -1):

cols.append(df.shift(i))

names += [(‘var%d(t-%d)’ % (j + 1, i)) for j in range(n_vars)]

forecast sequence (t, t+1, … t+n)

for i in range(0, n_out):

cols.append(df.shift(-i))

if i == 0:

names += [(‘var%d(t)’ % (j + 1)) for j in range(n_vars)]

else:

names += [(‘var%d(t+%d)’ % (j + 1, i)) for j in range(n_vars)]

put it all together

agg = pd.concat(cols, axis=1)

agg.columns = names

drop rows with NaN values

if dropnan:

agg.dropna(inplace=True)

return agg

load dataset

dataset = pd.read_csv(‘pollution.csv’, header=0, index_col=0)

values = dataset.values

integer encode direction

encoder = LabelEncoder()

print(values[:, 4])

values[:, 4] = encoder.fit_transform(values[:, 4])

print(values[:, 4])

ensure all data is float

values = values.astype(‘float32’)

normalize features

scaler = MinMaxScaler(feature_range=(0, 1))

scaled = scaler.fit_transform(values)

frame as supervised learning

reframed = series_to_supervised(scaled, 1, 1)

drop columns we don’t want to predict

reframed.drop(reframed.columns[[9, 10, 11, 12, 13, 14, 15]], axis=1, inplace=True)

print(reframed.head())

构造模型

首先，我们需要将处理后的数据集划分为训练集和测试集。为了加速模型的训练，我们仅利用第一年数据进行训练，然后利用剩下的4年进行评估。

下面的代码将数据集进行划分，然后将训练集和测试集划分为输入和输出变量，最终将输入（X）改造为LSTM的输入格式，即[samples,timesteps,features]。

split into train and test sets

values = reframed.values

n_train_hours = 365 * 24

train = values[:n_train_hours, :]

test = values[n_train_hours:, :]

split into input and outputs

train_X, train_y = train[:, :-1], train[:, -1]

test_X, test_y = test[:, :-1], test[:, -1]

reshape input to be 3D [samples, timesteps, features]

train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))

test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))

print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)

运行上述代码打印训练集和测试集的输入输出格式，其中9K小时数据作训练集，35K小时数据作测试集。

(8760, 1, 8) (8760,) (35039, 1, 8) (35039,)

现在可以搭建LSTM模型了。 LSTM模型中，隐藏层有50个神经元，输出层1个神经元（回归问题），输入变量是一个时间步（t-1）的特征，损失函数采用Mean Absolute Error(MAE)，优化算法采用Adam，模型采用50个epochs并且每个batch的大小为72。

最后，在fit()函数中设置validation_data参数，记录训练集和测试集的损失，并在完成训练和测试后绘制损失图。

checkpointer = ModelCheckpoint(filepath=‘best_model.hdf5’, monitor=‘val_loss’, verbose=1, save_best_only=True,

mode=‘min’)

reduce = ReduceLROnPlateau(monitor=‘val_loss’, patience=10, verbose=1, factor=0.5, min_lr=1e-6)

model = Sequential()

model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))

model.add(Dense(1))

model.compile(loss=‘mae’, optimizer=‘adam’)

fit network

history = model.fit(train_X, train_y, epochs=300, batch_size=64, validation_data=(test_X, test_y), verbose=1,

callbacks=[checkpointer, reduce],

shuffle=True)

plot history

pyplot.plot(history.history[‘loss’], label=‘train’)

pyplot.plot(history.history[‘val_loss’], label=‘test’)

pyplot.legend()

pyplot.show()

模型评估

接下里我们对模型效果进行评估。

值得注意的是：需要将预测结果和部分测试集数据组合然后进行比例反转（invert the scaling），同时也需要将测试集上的预期值也进行比例转换。

（We combine the forecast with the test dataset and invert the scaling. We also invert scaling on the test dataset with the expected pollution numbers.）

至于在这里为什么进行比例反转，是因为我们将原始数据进行了预处理（连同输出值y），此时的误差损失计算是在处理之后的数据上进行的，为了计算在原始比例上的误差需要将数据进行转化。同时笔者有个小Tips：就是反转时的矩阵大小一定要和原来的大小（shape）完全相同，否则就会报错。

通过以上处理之后，再结合RMSE（均方根误差）计算损失。

yhat = model.predict(test_X)

test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))

invert scaling for forecast

inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)

inv_yhat = scaler.inverse_transform(inv_yhat)

inv_yhat = inv_yhat[:, 0]

invert scaling for actual

inv_y = scaler.inverse_transform(test_X)

inv_y = inv_y[:, 0]

calculate RMSE

rmse = sqrt(mean_squared_error(inv_y, inv_yhat))

print(‘Test RMSE: %.3f’ % rmse)

完整代码

import pandas as pd

from datetime import datetime

from matplotlib import pyplot

from sklearn.preprocessing import LabelEncoder, MinMaxScaler

from sklearn.metrics import mean_squared_error

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense

from tensorflow.keras.layers import LSTM

from numpy import concatenate

from math import sqrt

load data

def parse(x):

return datetime.strptime(x, ‘%Y %m %d %H’)

def read_raw():

dataset = pd.read_csv(‘raw.csv’, parse_dates=[[‘year’, ‘month’, ‘day’, ‘hour’]], index_col=0, date_parser=parse)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
6c1.png)

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024c （备注python）
[外链图片转存中…(img-YDxYKZuk-1713213792231)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84139624

关注

13
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录