面试可以了解到哪些信息呢【RNN入门到实战，腾讯Python开发面试凉凉

最新推荐文章于 2024-06-28 10:50:50 发布

JAVA工程师6

最新推荐文章于 2024-06-28 10:50:50 发布

阅读量771

点赞数 28

分类专栏： 2024年程序员学习文章标签：面试 rnn python

本文链接：https://blog.csdn.net/m0_54206457/article/details/137418036

版权

2024年程序员学习专栏收录该内容

260 篇文章 0 订阅

订阅专栏

本文介绍了如何使用LSTM模型对污染数据进行时间序列预测，包括数据预处理（归一化、序列化）、划分训练集和测试集、模型配置（LSTM层、损失函数和优化器）、训练过程以及模型评估（RMSE计算）。

摘要由CSDN通过智能技术生成

forecast sequence (t, t+1, … t+n)

for i in range(0, n_out):

cols.append(df.shift(-i))

if i == 0:

names += [(‘var%d(t)’ % (j + 1)) for j in range(n_vars)]

else:

names += [(‘var%d(t+%d)’ % (j + 1, i)) for j in range(n_vars)]

put it all together

agg = pd.concat(cols, axis=1)

agg.columns = names

drop rows with NaN values

if dropnan:

agg.dropna(inplace=True)

return agg

load dataset

dataset = pd.read_csv(‘pollution.csv’, header=0, index_col=0)

values = dataset.values

integer encode direction

encoder = LabelEncoder()

print(values[:, 4])

values[:, 4] = encoder.fit_transform(values[:, 4])

print(values[:, 4])

ensure all data is float

values = values.astype(‘float32’)

normalize features

scaler = MinMaxScaler(feature_range=(0, 1))

scaled = scaler.fit_transform(values)

frame as supervised learning

reframed = series_to_supervised(scaled, 1, 1)

drop columns we don’t want to predict

reframed.drop(reframed.columns[[9, 10, 11, 12, 13, 14, 15]], axis=1, inplace=True)

print(reframed.head())

构造模型

首先，我们需要将处理后的数据集划分为训练集和测试集。为了加速模型的训练，我们仅利用第一年数据进行训练，然后利用剩下的4年进行评估。

下面的代码将数据集进行划分，然后将训练集和测试集划分为输入和输出变量，最终将输入（X）改造为LSTM的输入格式，即[samples,timesteps,features]。

split into train and test sets

values = reframed.values

n_train_hours = 365 * 24

train = values[:n_train_hours, :]

test = values[n_train_hours:, :]

split into input and outputs

train_X, train_y = train[:, :-1], train[:, -1]

test_X, test_y = test[:, :-1], test[:, -1]

reshape input to be 3D [samples, timesteps, features]

train_X = train_X.reshape((train_X.shape[0], 1, train_X.shape[1]))

test_X = test_X.reshape((test_X.shape[0], 1, test_X.shape[1]))

print(train_X.shape, train_y.shape, test_X.shape, test_y.shape)

运行上述代码打印训练集和测试集的输入输出格式，其中9K小时数据作训练集，35K小时数据作测试集。

(8760, 1, 8) (8760,) (35039, 1, 8) (35039,)

现在可以搭建LSTM模型了。 LSTM模型中，隐藏层有50个神经元，输出层1个神经元（回归问题），输入变量是一个时间步（t-1）的特征，损失函数采用Mean Absolute Error(MAE)，优化算法采用Adam，模型采用50个epochs并且每个batch的大小为72。

最后，在fit()函数中设置validation_data参数，记录训练集和测试集的损失，并在完成训练和测试后绘制损失图。

checkpointer = ModelCheckpoint(filepath=‘best_model.hdf5’, monitor=‘val_loss’, verbose=1, save_best_only=True,

mode=‘min’)

reduce = ReduceLROnPlateau(monitor=‘val_loss’, patience=10, verbose=1, factor=0.5, min_lr=1e-6)

model = Sequential()

model.add(LSTM(50, input_shape=(train_X.shape[1], train_X.shape[2])))

model.add(Dense(1))

model.compile(loss=‘mae’, optimizer=‘adam’)

fit network

history = model.fit(train_X, train_y, epochs=300, batch_size=64, validation_data=(test_X, test_y), verbose=1,

callbacks=[checkpointer, reduce],

shuffle=True)

plot history

pyplot.plot(history.history[‘loss’], label=‘train’)

pyplot.plot(history.history[‘val_loss’], label=‘test’)

pyplot.legend()

pyplot.show()

模型评估

接下里我们对模型效果进行评估。

值得注意的是：需要将预测结果和部分测试集数据组合然后进行比例反转（invert the scaling），同时也需要将测试集上的预期值也进行比例转换。

（We combine the forecast with the test dataset and invert the scaling. We also invert scaling on the test dataset with the expected pollution numbers.）

至于在这里为什么进行比例反转，是因为我们将原始数据进行了预处理（连同输出值y），此时的误差损失计算是在处理之后的数据上进行的，为了计算在原始比例上的误差需要将数据进行转化。同时笔者有个小Tips：就是反转时的矩阵大小一定要和原来的大小（shape）完全相同，否则就会报错。

通过以上处理之后，再结合RMSE（均方根误差）计算损失。

yhat = model.predict(test_X)

test_X = test_X.reshape((test_X.shape[0], test_X.shape[2]))

invert scaling for forecast

inv_yhat = concatenate((yhat, test_X[:, 1:]), axis=1)

inv_yhat = scaler.inverse_transform(inv_yhat)

inv_yhat = inv_yhat[:, 0]

invert scaling for actual

inv_y = scaler.inverse_transform(test_X)

inv_y = inv_y[:, 0]

calculate RMSE

rmse = sqrt(mean_squared_error(inv_y, inv_yhat))

print(‘Test RMSE: %.3f’ % rmse)

完整代码

import pandas as pd

from datetime import datetime

from matplotlib import pyplot

from sklearn.preprocessing import LabelEncoder, MinMaxScaler

from sklearn.metrics import mean_squared_error

from tensorflow.keras.models import Sequential

from tensorflow.keras.layers import Dense

from tensorflow.keras.layers import LSTM

from numpy import concatenate

from math import sqrt

load data

def parse(x):

return datetime.strptime(x, ‘%Y %m %d %H’)

def read_raw():

dataset = pd.read_csv(‘raw.csv’, parse_dates=[[‘year’, ‘month’, ‘day’, ‘hour’]], index_col=0, date_parser=parse)

dataset.drop(‘No’, axis=1, inplace=True)

manually specify column names

dataset.columns = [‘pollution’, ‘dew’, ‘temp’, ‘press’, ‘wnd_dir’, ‘wnd_spd’, ‘snow’, ‘rain’]

dataset.index.name = ‘date’

mark all NA values with 0

dataset[‘pollution’].fillna(0, inplace=True)

drop the first 24 hours

dataset = dataset[24:]

summarize first 5 rows

print(dataset.head(5))

save to file

dataset.to_csv(‘pollution.csv’)

def drow_pollution():

dataset = pd.read_csv(‘pollution.csv’, header=0, index_col=0)

values = dataset.values

specify columns to plot

groups = [0, 1, 2, 3, 5, 6, 7]

i = 1

plot each column

pyplot.figure(figsize=(10, 10))

for group in groups:

pyplot.subplot(len(groups), 1, i)

pyplot.plot(values[:, group])

pyplot.title(dataset.columns[group], y=0.5, loc=‘right’)

i += 1

pyplot.show()

def series_to_supervised(data, n_in=1, n_out=1, dropnan=True):

convert series to supervised learning

n_vars = 1 if type(data) is list else data.shape[1]

df = pd.DataFrame(data)

cols, names = list(), list()

input sequence (t-n, … t-1)

for i in range(n_in, 0, -1):

cols.append(df.shift(i))

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~

给大家准备的学习资料包括但不限于：

Python 环境、pycharm编辑器/永久激活/翻译插件

python 零基础视频教程

Python 界面开发实战教程

Python 爬虫实战教程

Python 数据分析实战教程

python 游戏开发实战教程

Python 电子书100本

Python 学习路线规划

一个人可以走的很快，但一群人才能走的更远。如果你从事以下工作或对以下感兴趣，欢迎戳这里加入程序员的圈子，让我们一起学习成长！

AI人工智能、Android移动开发、AIGC大模型、C C#、Go语言、Java、Linux运维、云计算、MySQL、PMP、网络安全、Python爬虫、UE5、UI设计、Unity3D、Web前端开发、产品经理、车载开发、大数据、鸿蒙、计算机网络、嵌入式物联网、软件测试、数据结构与算法、音视频开发、Flutter、IOS开发、PHP开发、.NET、安卓逆向、云计算

2ZlaTM0Nzc5NTc5MA==,size_16,color_FFFFFF,t_70)

一个人可以走的很快，但一群人才能走的更远。如果你从事以下工作或对以下感兴趣，欢迎戳这里加入程序员的圈子，让我们一起学习成长！

JAVA工程师6

关注

28
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
面试可以了解到哪些信息呢【RNN入门到实战，腾讯Python开发面试凉凉

不知道你们用的什么环境，我一般都是用的Python3.6环境和pycharm解释器，没有软件，或者没有资料，没人解答问题，都可以免费领取（包括今天的代码），过几天我还会做个视频教程出来，有需要也可以领取~给大家准备的学习资料包括但不限于：Python 环境、pycharm编辑器/永久激活/翻译插件python 零基础视频教程Python 界面开发实战教程Python 爬虫实战教程Python 数据分析实战教程python 游戏开发实战教程Python 电子书100本。
复制链接

扫一扫