METR-LA数据集介绍

最新推荐文章于 2025-03-27 20:28:56 发布

湛和

最新推荐文章于 2025-03-27 20:28:56 发布

阅读量8.7k

点赞数 17

文章标签：人工智能机器学习 pytorch

本文链接：https://blog.csdn.net/qq_44858786/article/details/134788448

版权

METR-LA（Metro Traffic Los Angeles）数据集是一个用于交通流量预测的常用数据集，主要用于研究和评估交通预测算法的性能。该数据集包含了洛杉矶地区的交通传感器数据，可以用于建立和验证交通流量预测模型。

数据格式：

METR-LA数据集的格式通常是时间序列数据，其中包含了交通传感器在不同时间点上的流量信息。常见的数据格式可能包括以下几列：

timestamp： 时间戳，表示观测的时间点。
flow（或类似指标）： 表示在该时间点上的交通流量，通常是车辆通过传感器的数量。
其他特征： 可能包括其他相关的特征，如速度、密度等，以更全面地描述交通状况。

例子：

下面是一个简化的METR-LA数据集的示例，假设有三个传感器，每隔15分钟记录一次交通流量：

timestamp, sensor_1_flow, sensor_2_flow, sensor_3_flow
2022-01-01 00:00:00, 150, 200, 180
2022-01-01 00:15:00, 160, 210, 190
2022-01-01 00:30:00, 155, 205, 185
...

在这个例子中，每一行代表一个时间点的交通流量观测，其中 timestamp 是时间戳，而 sensor_1_flow、sensor_2_flow 和 sensor_3_flow 分别表示三个传感器在该时间点上的交通流量。这种格式可用于训练和评估交通流量预测模型。实际METR-LA数据集可能包含更多的信息和特征。

以我所用的metr-la为例：

data = np.load("D\data\\val.npz")
array_names = data.files
print("Arrays in the file:", array_names)

for array_name in array_names:
    print(f"array:{array_name}")
    print(data[array_name])

输出结果：

Arrays in the file: ['x', 'y', 'x_offsets', 'y_offsets']
array:x
[[[[62.42857143  0.24305556]
   [66.42857143  0.24305556]
   [68.          0.24305556]
   ...
   [62.57142857  0.24305556]
   [65.42857143  0.24305556]
   [64.85714286  0.24305556]]

  [[62.77777778  0.24652778]
   [61.11111111  0.24652778]
   [68.33333333  0.24652778]
   ...
   [62.22222222  0.24652778]
   [66.          0.24652778]
   [66.33333333  0.24652778]]
...
array:y
[[[[67.875       0.28472222]
   [65.75        0.28472222]
   [62.875       0.28472222]
   ...
   [40.375       0.28472222]
   [66.5         0.28472222]
   [54.625       0.28472222]]

  [[67.55555556  0.28819444]
   [65.77777778  0.28819444]
   [61.33333333  0.28819444]
   ...
   [40.55555556  0.28819444]
   [58.77777778  0.28819444]
   [49.33333333  0.28819444]]
...
array:x_offsets
[[-11]
 [-10]
 [ -9]
 [ -8]
 [ -7]
 [ -6]
 [ -5]
 [ -4]
 [ -3]
 [ -2]
 [ -1]
 [  0]]
array:y_offsets
[[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]]

x' 和 'y' 数组： 这可能是输入（'x'）和输出（'y'）的时间序列数据。
'x_offsets' 和 'y_offsets' 数组： 这些数组可能包含有关输入和输出时间序列的偏移信息.

输出维度则为：

array:x
(3425, 12, 207, 2)
array:y
(3425, 12, 207, 2)
array:x_offsets
(12, 1)
array:y_offsets
(12, 1)

时间步长： 3425 表示数据集中有 3425 个时间步长的数据点。
时间序列长度： 12 表示每个时间点上有 12 个时间序列。
特征维度： 207 表示有 207 个传感器。
两个数值： 2 表示传感器采集的信息。这两个数值可能代表交通流量的两个方面，如车辆速度和流量。