pytorch框架下时序预测中LSTM数据集构建

呀是Anna

已于 2023-02-02 13:37:35 修改

阅读量3.3k

点赞数 2

分类专栏：数据处理文章标签：数据结构 python

于 2021-05-13 11:05:20 首次发布

本文链接：https://blog.csdn.net/qq_38603174/article/details/116741430

版权

数据处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

   在pytorch中LSTM的输入格式为(batch_size,  seq_len, input_size)，seq_len原意是指LSTM处理翻译问题中每条句子序列的长度，在时序数据处理中对应着一条样本中包含前多少时刻的样本数据，具体数据处理的代码如下：

from sklearn.preprocessing import StandardScaler, MinMaxScaler
from torch.utils.data import Dataset
import pandas as pd
import numpy as np
# 构建自己的数据集，输入为自变量x,输出为因变量y
class MyDataSet(Dataset):
    def __init__(self, x, y):
        super(MyDataSet, self).__init__()
        self.x = x
        self.y = y


    def __len__(self):
        return self.x.shape[0]

    def __getitem__(self, idx):
        return self.x[idx], self.y[idx]

# 构建(sanmple_num, seq_len, input_size)数据格式的数据，输入为excel文件
# filepath根据自己的文件所在位置对应更改
def data_loader(filepath = 'data/dataset.xlsx',seq_len = 6,train_rate = 0.7):
  """Loads Google stock data.

  Args:
    - train_rate: the ratio between training and testing sets
    - seq_len: sequence length

  Returns:
    - dataset_train: training data
    - dataset_val: valid data
    - dataset_test: testing data
  """

  # Load data
  # 跳过文件第一列时间日期，取出数据
  ori_data = pd.read_excel(filepath).iloc[:,1:].values

  # Normalization
  # 两种处理数据的方式：归一化/标准化
  scaler = MinMaxScaler(feature_range=(0,1))
  norm_data = scaler.fit_transform(ori_data)
  # std = StandardScaler()
  # norm_data = std.fit_transform(ori_data)
  # norm_data = ori_data
  # Build dataset
  data_x = []
  data_y = []

  for i in range(0, len(norm_data[:,0]) - seq_len):
    # Previous seq_len data as features
    temp_x = norm_data[i:i + seq_len,:-1]
    temp_y = norm_data[i:i + seq_len,-1:]
    # Values at next time point as labels
    data_x = data_x + [temp_x]
    data_y = data_y + [temp_y]

  data_x = np.asarray(data_x).astype(np.float32)
  data_y = np.asarray(data_y).astype(np.float32)

  # Train valid test Division

  train_x, valid_x, test_x = data_x[:int(0.6 * len(norm_data))], data_x[int(0.6 * len(norm_data)):int(0.8 * len(norm_data))], data_x[int(0.8 * len(norm_data)):]
  train_y, valid_y, test_y = data_y[:int(0.6 * len(norm_data))], data_y[int(0.6 * len(norm_data)):int(0.8 * len(norm_data))], data_y[int(0.8 * len(norm_data)):]

  dataset_train,dataset_val,dataset_test = MyDataSet(train_x,train_y),MyDataSet(valid_x,valid_y),MyDataSet(test_x,test_y)

  return dataset_train,  dataset_val, dataset_test

呀是Anna

关注

2
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
pytorch框架下时序预测中LSTM数据集构建

在pytorch中LSTM的输入格式为(batch_size, seq_len, input_size)，seq_len原意是指LSTM处理翻译问题中每条句子序列的长度，在时序数据处理中对应着一条样本中包含前多少时刻的样本数据，具体数据处理的代码如下：# 构建自己的数据集，输入为自变量x,输出为因变量yclass MyDataSet(Dataset): def __init__(self, x, y): super(MyDataSet, self).__init__()...
复制链接

扫一扫