交通数据集

PeMS数据官网:https://opendata.sz.gov.cn/

深圳公共交通数据https://pems.dot.ca.gov/

总结下载的公共交通数据:lcst-LL/-HiST-Graph: 纯交通数据

数据集在交通流量预测中的作用,以及划分数据集的科学原理和实践意义。 数据集作为机器学习项目中的基础资源,提供了用于训练模型的必要信息。在交通流量预测的场景下,数据集包含了不同时间段、不同区域的交通流量数据。通过对这些数据的分析和学习,模型能够预测未来的交通流量情况,对于城市规划、交通管理以及为驾驶者提供实时交通信息等方面具有重要价值。 METR-LA数据集是其中的一个著名案例,它是由加州大学欧文分校的Shuo Feng等人收集整理的洛杉矶地区高速公路的交通数据。METR-LA数据集包含了洛杉矶地区主要高速公路在2012年4月到2012年6月期间每5分钟的交通流量信息,是时间序列预测领域内的一个重要基准数据集。 数据集划分是机器学习模型训练中的一个关键步骤,目的是为了评估模型的泛化能力。在模型训练过程中,我们需要有独立的测试集来评估模型的预测效果,以确保模型不是单纯记忆了训练数据,而是能够适应新的、未见过的数据。通常情况下,我们会将原始数据集分为三个部分: 1. 训练集:用于模型的训练过程,模型在这个数据集上学习交通流量的特征和模式。 2. 验证集:在模型训练阶段用于模型选择、超参数调整和提前停止,帮助我们找到最佳的模型参数。 3. 测试集:在模型训练完成之后用于最终的性能评估,模型将在这个数据集上展示其泛化能力。 在给出的信息中,训练集、测试集和验证集的比例为0.6:0.2:0.2。这意味着原始数据集被分为三个部分,其中60%用于训练模型,20%用于验证模型,剩余的20%用于测试模型。这种划分方式有助于保持数据分布的一致性,同时也能给模型提供充足的训练样本和评估样本。 在划分数据集时,我们需要注意数据的时间顺序和完整性。交通流量数据是时间序列数据,因此在划分数据集时,应按照时间顺序来划分,保证训练集中的数据比验证集和测试集中的数据要早,以模拟实际情况下模型需要根据过去的数据预测未来的情况。 除此之外,在进行数据集划分时,还需要考虑数据的代表性和多样性。理想情况下,每个数据集(训练集、验证集、测试集)都应该能够代表整体数据的特点,这样模型的评估才能更加准确。 在本例中,将METR-LA数据集和PEMS-bay数据集都按照0.6:0.2:0.2的比例进行划分,意味着我们有两组不同的数据集,但它们都被用于相似的目的和过程。PEMS-bay是另一个在交通流量预测领域广泛使用的大规模数据集,收集了加州湾区高速公路网络的交通数据。与METR-LA一样,对PEMS-bay数据集的划分也遵循了相同的比例,以确保对两个不同地区数据的均衡处理和模型验证。 总结来说,METR-LA数据集及其划分方法的知识点包括: 1. 交通流量预测数据集的重要性,及其实用性与意义。 2. METR-LA数据集的来源和特点,它在交通流量预测领域的应用和研究价值。 3. 数据集划分的目的和必要性,以及它对模型评估的影响。 4. 训练集、验证集、测试集的概念和比例划分原则。 5. 时间序列数据集划分时需要遵守的时间顺序和数据代表性的原则。 6. 模型泛化能力的评估和数据集划分在模型评估中的作用。 7. 多个数据集(例如METR-LA和PEMS-bay)的处理和划分方法,保证不同数据集处理的一致性和科学性。

数据集

选择了公共的交通流数据集来全面评估我们模型的性能。

METR-LA(Metro Traffic Los Angeles)数据集是一个用于交通流量预测的常用数据集,主要用于研究和评估交通预测算法的性能。该数据集包含了洛杉矶地区的交通传感器数据,可以用于建立和验证交通流量预测模型。此数据集包含从 2012年3月1日至 2012年6 月 30 日期间从洛杉矶县高速公路系统的 207 个传感器收集的交通速度数据。

本数据集是在洛杉矶县的高速公路上通过环路检测器实时收集的。我们选取了2012年3月1日至3月7日期间的207个传感器及其交通速度。我们每5分钟汇总一次交通速度。相似性,数据总结出一个邻接矩阵和一个特征矩阵。邻接矩阵是由交通网络中传感器之间的距离计算出来的。由于Los-loop数据集包含一些缺失的数据,本文使用线性插值法来填补缺失值

该数据库是根据 2009 年 12 月 14 日至 2009 年 12 月 18 日(周一至周五)巴西圣保罗市的城市交通行为记录创建的。每 30 分钟 7:00 至 20:00 注册。数据集 巴西圣保罗市城市交通行为 被用于 Universidade Nove de Julho - 信息学和知识管理研究生课程的学术研究。

本数据集是在洛杉矶县的高速公路上通过环路检测器实时收集的, 用207个传感器记录了四个月的交通速度统计数据。

Awesome-Traffic-Prediction/datasets/METR.md 位于 main ·Coolgiserz/Awesome-Traffic-Prediction

T-GCN文章选取了该数据集2012年3月1日至3月7日期间的207个传感器及其交通速度。每5分钟汇总一次交通速度。相似性,数据总结出一个邻接矩阵和一个特征矩阵。邻接矩阵是由交通网络中传感器之间的距离计算出来的。由于Los-loop数据集包含一些缺失的数据,使用线性插值法来填补缺失值.

数据格式

METR-LA数据集的格式通常是时间序列数据,其中包含了交通传感器在不同时间点上的流量信息。常见的数据格式包括以下几列:

  • timestamp:时间戳,表示观测的时间点。
  • flow(或类似指标):表示在该时间点上的交通流量,通常是车辆通过传感器的数量。
  • 其他特征:可能包括其他相关的特征,如速度、密度等,以更全面地描述交通状况

示例

下面是一个简化的METR-LA数据集的示例,假设有三个传感器,每隔15分钟记录一次交通流量:

timestamp, sensor_1_flow, sensor_2_flow, sensor_3_flow

2022-01-01 00:00:00, 150, 200, 180

2022-01-01 00:15:00, 160, 210, 190

2022-01-01 00:30:00, 155, 205, 185

在这个例子中,每一行代表一个时间点的交通流量观测,其中 timestamp 是时间戳,而 sensor_1_flow、sensor_2_flow 和 sensor_3_flow 分别表示三个传感器在该时间点上的交通流量1

数据文件

METR-LA数据集主要包括以下文件:

  • adj_METR-LA.pkl文件:包含三个子文件: graph_sensor_ids.txt:存放传感器的ID,用于生成子文件2。 根据文件1生成的 {sensor_id :index} 字典,表示下标与传感器ID一一对应。 一个207 * 207的带权非对称邻接矩阵 dist_mx,其index通过上面的字典对应sensor_id,权值的计算原理是利用阈值高斯核^2^。
  • METR-LA.h5文件:包含34272条207个传感器的每五分钟检测交通速度值(特征矩阵)2

数据维度

  • 时间步长:3425表示数据集中有3425个时间步长的数据点。
  • 时间序列长度:12表示每个时间点上有12个时间序列。
  • 特征维度:207表示有207个传感器。
  • 两个数值:2表示传感器采集的信息。这两个数值可能代表交通流量的两个方面,如车辆速度和流量1

通过这些数据,研究人员可以建立和验证各种交通流量预测模型,以提高交通管理和规划的效率

PEMS-BAY。该数据集由2017年1月1日至2017年5月 31 日湾区高速公路上 325 个传感器采集的交通流速组成。

PeMS-BAY: 湾区,325个检测器

标题“将交通预测得PEMS-bay”直接指向了一个特定的交通预测数据集,即PEMS-bay。PEMS代表Performance Measurement System,这是专门用于收集交通数据的系统。PEMS系统部署在加州的多个地区,收集有关交通流量、速度、占用率等数据,以评估公路网络的性能。在数据集名称中出现的"bay"部分,可能是指该数据集是针对加州湾区(Bay Area)的,湾区是一个拥有众多交通数据监测站的地区,这些监测站可以提供高分辨率的交通流量和速度数据。PEMS-bay因此可以被视作是研究和开发交通流量预测模型的宝贵资源。 ### 描述知识点 描述部分提到了对PEMS-bay数据集和METR-LA数据集进行划分。METR-LA是另一个交通数据集,它同样用于预测任务,但这一次是针对洛杉矶地区。数据集的划分比例为0.6:0.2:0.2,意味着将数据集分为三部分:训练集、测试集和验证集。这种划分方法在机器学习和数据科学中非常常见,目的是为了评估和比较不同的模型在未知数据上的性能。 - **训练集(Training Set)**:这部分数据用于训练模型,即通过这部分数据输入到模型中,模型根据数据学习交通流量预测的规律,调整模型内部的参数来最小化预测误差。 - **测试集(Test Set)**:模型训练完成后,需要通过测试集来验证模型的泛化能力。测试集不应被模型在训练过程中看到,这样才能更客观地评价模型在新数据上的表现。 - **验证集(Validation Set)**:在模型训练过程中,可能需要调整模型的参数,或者在多个模型之间进行选择。验证集用于在模型训练阶段评价模型的表现,这样就可以选择最佳的模型配置,防止过拟合(overfitting)。 ### 标签知识点 标签“交通物流”指的是与交通相关的工作流和供应链管理,它在物流管理领域起着关键作用。交通物流涉及运输、配送、调度、路径规划等众多方面,其效率和管理水平直接影响到整个供应链的运作效率。在这一领域中,对交通流量的准确预测至关重要,因为预测结果可以为交通控制、城市规划、车辆调度等决策提供依据。 ### 文件名称列表知识点 文件名称列表中仅列出了“PEMS-BAY”,这进一步强调了讨论的焦点是关于PEMS系统在加州湾区收集的数据集。这个数据集的利用通常涉及到以下几个步骤: - **数据收集**:首先需要从PEMS系统中获取交通数据,数据通常以传感器收集的流量和速度为主要指标。 - **数据预处理**:由于原始数据可能包含噪声、缺失值或者异常值,因此需要进行清洗和格式化,以便于进行分析和建模。 - **特征工程**:在预测模型中,选择合适的特征(例如时间、天气条件、历史流量等)对于提高预测准确性至关重要。 - **模型训练与评估**:选择适当的机器学习模型,例如时间序列预测模型、神经网络等,进行训练和验证。 - **模型部署**:将训练好的模型部署到实际的交通预测系统中,为交通管理和调度提供实时的预测信息。 ### 结语 综合以上分析,本文件所涉及的知识点涵盖了交通数据集的处理、机器学习模型的训练与评估、以及交通预测在物流管理中的应用。对PEMS-bay和METR-LA数据集的划分是为了解决实际的交通预测问题,利用这些数据集可以建立起更加高效的交通预测模型,进而优化交通物流管理,提高运输效率,减少交通拥堵,最终达到提升整个社会交通系统性能的目的。

它是公共数据集的一个细节。

https://drive.google.com/drive/folders/1xZifYuEtunwiKt4RA5bnnI1ex46OBWFO?usp=sharing

那是我的 google drive,包括 Los 和 sz、Pems3478、Pems7M、Pems-bay、metra-la、Pems-sf Seattle_loop

一、adj_PEMS-BAY.pkl文件

pkl文件包含三个子文件:

长度为325的graph_sensor_ids.txt文件存放了传感器的id,表示下标与传感器id一一对应

根据文件1的graph_sensor_ids.txt生成的 {sensor_id :index}的字典,表示下标与传感器id一一对应

一个325 * 325的带权非对称邻接矩阵dist_mx(有向图),其index通过上面的字典对应sensor_id,权值的计算原理是利用阈值高斯核,其中相当于做了归一化和稀疏化,将距离值映射到0-1之间,并将低于阈值的值置0。(权重是根据存放传感器之间的距离文件获取,该文件包含了{源传感器id,目标传感器id,cost代价})

import pandas as pd

import numpy as np

df1 = pd.read_pickle("adj_PEMS-BAY.pkl")

二、PEMS-BAY.h5文件

52116条325个传感器的每五分钟检测交通速度值(特征矩阵)

交通速度取值范围:

城市道路:30-50公里/小时(约20-30英里/小时)

郊区道路:50-70公里/小时(约30-45英里/小时)

郊区道路:80-120公里/小时(约50-75英里/小时)

这里读取文件的路径要修改为自己的。

PEMS04.该数据集包含从加利福尼亚州 29 条高速公路上的 307 个传感器收集的交通流量、占用率和速度数据。数据集的时间跨度为 2018 年1月至2月。

PEMS08.此数据集包含从加利福尼亚州 8 条高速公路上的170 个传感器收集的交通数据。与PEMS04 类似,它由三个功能组成:流量、占用率和速度。数据集的时间跨度为 2018年7月至8月

PeMS04/08

加利福尼亚高速数据,"data.npz",原始数据shape=(16992,307,3),"3"代表交通流量3种特征(flow,speed,occupancy)——间隔5分钟预测1小时(307,3,36)->(307,3,12)

Davidham3/ASTGCN-2019-mxnet: ⚠️[Deprecated] no longer maintained, please use the code in https://github.com/guoshnBJTU/ASTGCN-r-pytorch

PeMS07

shape=(28224,883,1 )

https://colab.research.google.com/drive/1QOu-thJL2fo-P6O6QeS96weAcmae2hay?usp=sharing

即 Colab 版本,可以运行 DataSet。

PEMS-SF 系列

http://www.timeseriesclassification.com/description.php?Dataset=PEMS-SF

UCI Machine Learning Repository

PEMS-03

流数据聚合为 5 分钟,这意味着每小时的流数据中有 12 个点

PEMS-04

流数据聚合为 5 分钟,这意味着每小时的流数据中有 12 个点。它包含 3848 条道路上的 29 个探测器。该数据集的时间跨度为 2018 年 1 月至 2 月。

每个 npz 文件都包含一个名为 “data” 的键,形状为 (sequence_length、num_of_vertices、num_of_features)。

PEMS-07

流数据聚合为 5 分钟,这意味着每小时流数据中有 12 个点。此文件夹应包含两个 csv 文件。一个文件包含每对顶点之间的距离 (km),它有 n 行和 n 列,其中 n 是顶点的数量。另一个 csv 文件包含 n 列和大量行,每行代表一个时间步长,每列代表一个顶点的时间序列。

PEMS-07M

PeMSD7 由部署在加利福尼亚州公路系统主要大都市地区的超过 39, 000 个传感器站从 Caltrans 性能测量系统 (PeMS) 实时收集。该数据集还会从 30 秒的数据样本聚合到 5 分钟的间隔。我们在加利福尼亚州第 7 区随机选择中等和大规模,包含 228 个和 1, 026 个站点,分别标记为 PeMSD7(M) 和 PeMSD7(L) 作为数据源。PeMSD7 数据集的时间范围在 2012 年 5 月和 6 月的工作日。我们选择历史速度记录的第一个月作为训练集,其余的分别作为验证集和测试集。

PEMS-08

流数据聚合为 5 分钟,这意味着每小时流数据中有 12 个点。它包含 1979 条道路上的 8 个探测器。该数据集的时间跨度为 2016 年 7 月至 8 月。

每个 npz 文件都包含一个名为 “data” 的键,形状为 (sequence_length、num_of_vertices、num_of_features)。

我们的实验考虑了三种流量测量,包括总流量、平均速度和平均占用率。PeMS-04 和 PeMS-08 经过预处理,以确保数据集中任何相邻探测器之间的距离超过 3.5 英里。最后,PeMSD4 中有 307 个探测器,PeMSD8 中有 170 个探测器。流量数据每 5 分钟聚合一次,因此每个检测器每天包含 288 个数据点。

 

BAY-METR-LA (贝-梅特-拉)

https://github.com/liyaguang/DCRNN

(1) METR-LA 此交通数据集包含从洛杉矶县高速公路的环路检测器收集的交通信息(Jagadish et al., 2014)。我们选择了 207 个传感器并收集了从 2012 年 3 月 1 日到 2012 年 6 月 30 日的 4 个月数据进行实验。

(2) PEMS-BAY 此交通数据集由加利福尼亚交通局 (CalTrans) 绩效测量系统 (PeMS) 收集。我们在湾区选择了 325 个传感器,并收集了 2017 年 1 月 1 日至 2017 年 5 月 31 日的 6 个月数据进行实验。

los-loop-sz

Los - 此数据集由环路检测器在洛杉矶县的高速公路上实时收集。它包括 207 个传感器,其交通速度是从 3/1/2012 到 3/7/2012 收集的。这些流量速度数据每 5 分钟汇总一次。

Sz-这是 2015 年 1 月 1 日至 1 月 31 日深圳市出租车的轨迹,包括罗湖区作为研究区域的 156 条主干道。每条道路的交通速度每 15 分钟计算一次。

仅使用 load-adj/speed 这两个文件。

Seattle_Loop_Dataset

https://github.com/zhiyongc/Seattle-Loop-Data

数据集列表

  • Los and sz, Pems3478, Pems7M, Pems-bay, metra-la, Pems-sf, Seattle_loop

数据集详细信息

  • Pems-SF
  • Pems-03
    • 数据聚合:每5分钟
    • 数据点:每小时12个点
  • Pems-04
    • 数据聚合:每5分钟
    • 数据点:每小时12个点
    • 包含:3848个检测器,29条道路
    • 时间范围:2018年1月至2月
    • 数据格式:每个npz文件包含一个名为"data"的键,形状为(sequence_length, num_of_vertices, num_of_features)
  • Pems-07
    • 数据聚合:每5分钟
    • 数据点:每小时12个点
    • 包含:两个csv文件,一个包含顶点间距离,另一个包含时间序列数据
  • Pems-07M
    • 数据来源:Caltrans Performance Measurement System (PeMS)
    • 数据聚合:每5分钟
    • 时间范围:2012年5月和6月的工作日
    • 数据选择:随机选择了District 7中的中等和大规模数据源,分别标记为PeMSD7(M)和PeMSD7(L)
  • Pems-08
    • 数据聚合:每5分钟
    • 数据点:每小时12个点
    • 包含:1979个检测器,8条道路
    • 时间范围:2016年7月至8月
    • 数据格式:每个npz文件包含一个名为"data"的键,形状为(sequence_length, num_of_vertices, num_of_features)
    • 交通测量:总流量、平均速度、平均占用率
  • BAY-METR-LA
    • METR-LA
      • 包含:207个传感器
      • 时间范围:2012年3月1日至6月30日
    • PEMS-BAY
      • 包含:325个传感器
      • 时间范围:2017年1月1日至5月31日
  • Los-loop-sz
    • Los
      • 包含:207个传感器
      • 时间范围:2012年3月1日至3月7日
      • 数据聚合:每5分钟
    • Sz
      • 时间范围:2015年1月1日至1月31日
      • 数据聚合:每15分钟
      • 包含:156条主要道路
  • Seattle_Loop_Dataset

交通数据(1)——加州高速路网PeMS交通数据

一、PeMS数据介绍

1. 数据来源

2. 数据特点

3. 数据诊断与处理

4. PeMS数据格式

二、相关数据下载

1. 相关数据链接

2. 数据爬虫下载

3. 部分路网数据集(持续更新中···)

一、PeMS数据介绍

1. 数据来源

  PeMS提供了一个统一的交通数据数据库,该数据库由加州运输公司在加州的高速公路上收集,以及其他加州运输公司和合作机构的数据集。这些数据可以让用户对高速公路性能进行统一、全面的评估,基于对高速公路网络当前状态的了解做出运营决策,分析拥堵瓶颈以确定潜在的补救措施,并做出更好的整体决策。

智能交通系统(ITS)车辆检测站( Vehicle Detector Stations: VDS);

流量统计站: Traffic Census Stations;

Weight-In-Motion (WIM)传感器;

加州公路巡警(CHP)事故数据;

交通事故监测和分析系统(TASAS)事故数据;

······

2. 数据特点

超过44,681个检测器每30秒报告一次数据;

一旦完成编译30秒的数据集,没有任何间隙,数据就会被聚合成5分钟的增量。

各种性能数据可用,如容量、速度、延迟、车辆行驶里程(VMT)、车辆行驶小时(VHT)、行驶时间和年平均日交通流量(AADT);

3. 数据诊断与处理

个别检波器站(VDS)偶尔会发生故障、停止工作或停止发送数据。这些错误可能因各种原因发生,包括错误的连接、通信丢失或控制器故障。每当这些错误发生时,数据集就会出现空白。没有完整的数据集(至少没有明显的不准确性),绩效度量是无法估计的。PeMS会使用一种称为数据输入的过程估计数据(为了计算性能度量)。该过程包括全面的算法,以填补空白的数据集与准确的估计。

基于局部系数的邻接线性回归——数据空白是通过来自同一位置邻近车道的检测器以及直接上下游位置的检测器的信息来填充的;

基于全局系数的邻居线性回归——当PeMS确定某些检测器从未报告合理的数据时,系统会查看整个区域的检测器数据中的一般关系,以填补空白;

临时中间值——pem查看长时间内相似时间和每周天数的数据值。这些数据值的中位数用于填补空白;

集群中值——PeMS检查一周内来自具有类似流量模式的检测器的数据,以填补数据空白。

4. PeMS数据格式

Dashboards

Maps

Plots and graphs

Tables

Export to text/spreadsheet file

Animation video.

部分数据解释如下:

(1)Maps

  PeMS中有四个不同的地图:实时地图、性能地图、库存地图和搜索地图(Real-Time Map, the Performance Map, the Inventory Map, and the Search Map)。

(2)Plots and Charts

  PeMS提供多种类型的性能度量图和图表,如流量或速度的聚合图、服务水平条形图、区域数量饼图、速度等高线图和拥塞概述图。

(3)Tables

  PeMS在大多数报告中,默认的输出格式是图表或图表。为了生成表,用户必须通过单击按钮选择表输出选项。

  PeMS允许用户将大多数报告中的数据导出到单独的文本文件或电子表格文件(Microsoft Excel . xls)。

(4)Animation Videos

当在高速公路路段或走廊上进行空间层面的分析时,用户可以生成动画视频。动画视频提供了一种方式来查看交通状况的变化,因为他们发生在特定的日期和时间。只需选择日期、开始和结束时间以及所需的里程限制。用户可以选择显示以下数据元素:速度、瓶颈、事件、容量和站点。点击播放按钮可以让用户看到交通状况随时间变化的动画。要控制动画速度,请选择或取消选择地图右下角的箭头。动画可以暂停,让用户对给定时刻的数据进行更详细的调查。用户还可以单击动画条,将动画快进或快退到所需的时间点。用户可以通过双击某个位置、使用鼠标滚轮或使用地图左上角的缩放比例按钮来放大或缩小动画。

二、相关数据下载

1. 相关数据链接

PeMS数据官网下载链接:http://pems.dot.ca.gov.

PeMS论坛链接:http://pemsforum.dot.ca.gov/.

PeMS用户指导手册:https://github.com/sttCharon/PeMS_Data

2. 数据爬虫下载

此代码转载博客地址:Python爬虫下载加州高速路网PeMS交通流量数据集以及交通公开数据集分享_pems数据集-CSDN博客

交通数据集PEMS04介绍

数据集概述

本数据集来源于PeMS网站,包含了旧金山湾区(美国加尼福尼亚州旧金山大湾区)29条高速公路上的3848个探测器在2018年1月1日至2018年2月28日期间的数据。这些探测器每5分钟收集一次数据,记录了3848个传感器每5分钟经过的车辆数。

数据集详细信息

  • 节点数: 307
  • 特征数: 3
  • 数据时长: 59天
  • 时间窗口: 5分钟

数据内容

数据集包含以下内容:

  1. 交通流量数据: 记录了每个探测器每5分钟经过的车辆数。
  2. 邻接矩阵: 一个307*307的矩阵,表示了307个路口之间的相邻情况(即连通性)以及节点之间的距离。

应用场景

该数据集可用于以下研究与应用:

  • 交通流量预测
  • 交通速度预测
  • 交通拥堵情况预测
  • 交通信号灯绿信比条件
  • 时间序列分析
  • 时空序列分析

数据集来源

数据来源于PeMS网站,原始数据经过处理后形成本数据集,供研究者使用。

Pems-Bay:包含在湾区325个传感器上6个月的交通速度信息。

今天给大家推荐一个开放的交通数据库,美国加州交通运输局的PeMS数据库,这里有着长达10年的高速公路检测器数据。包含流率、速度、占有率、重车比例、延误、车辆行驶里程、车辆行驶时间、交通事故等类型数据。很多学者都用这里的数据进行研究。 所以这里给大家介绍一下这个数据库下载数据的使用方式。官方网址:http://pems.dot.ca.gov/ 首页右侧有apply for an account的链接,注册完毕后回到首页右上角登陆已通过的注册账号。

选择数据的属性和精度

Quantity, Second Quantity:要下载的数据类型,如流量、速度、占有率等。 Granularity: 数据精度,月、周、日、5分钟的颗粒度。 另外,可以选择数据的日期覆盖时段、节假日、车道等。

然后点击需要下载的数据格式,这里一般下载EXPORT to.XLS,比较便于后续数据分析。

#### 1. 交通数据集PEMS04概述 PEMS04是来自PeMS(Performance Measurement System)网站的交通数据集,聚焦于美国加利福尼亚州旧金山湾区的交通网络。该数据集以精细的时间分辨率和广泛的空间覆盖范围,为交通研究者和工程师提供了宝贵的数据资源。 #### 2. 数据集细节 PEMS04数据集收集了旧金山湾区内29条高速公路、3848个交通探测器在2018年1月1日至2018年2月28日两个月内的交通数据。这些探测器每5分钟记录一次数据,记录了经过的车辆数。数据集中的时间序列信息包括速度、流量和时间占有率,能够反映该时间段内各高速公路上的交通状况。 #### 3. 数据集结构 数据集中的交通信息是按节点组织的,每个节点代表一个交通探测器。在这个数据集中,节点数量为307,特征数为3,时长为59天,时间窗口为5分钟。节点的特征可能包括速度、流量和时间占有率等,这些数据对于分析交通流和进行预测至关重要。 #### 4. 邻接矩阵文件 数据集还包含了307*307的邻接矩阵文件,该矩阵反映了307个路口之间的相邻情况,即路口间的连通性。每个矩阵元素可以表示路口间的距离或是连接性(如1表示连接,0表示不连接)。这个邻接矩阵是理解交通网络结构以及分析不同路口间交通流相关性的关键。 #### 5. 数据集应用 PEMS04数据集可用于多个交通领域的研究,包括但不限于以下方面: - **交通流量预测**:基于历史交通流量数据,构建预测模型来估计未来的交通流量,对于交通规划和管理有着重要意义。 - **交通速度预测**:类似于流量预测,速度预测有助于实时交通管理和驾驶者提供未来道路状况的预计。 - **交通拥堵情况预测**:预测特定时间和地点可能发生的交通拥堵,为缓解交通压力和事故响应提供数据支撑。 - **交通信号灯绿信比条件**:分析交通流数据,优化交通信号灯的控制策略,提高交通网络的整体效率。 - **时间序列分析**:研究单个或多个传感器采集的交通数据随时间变化的规律,利用时间序列分析方法进行趋势、季节性和周期性分析。 - **时空序列分析**:结合时间和空间维度的数据,进行交通流的时空动态分析,这对于理解交通流的复杂模式非常有价值。 #### 6. 数据挖掘与深度学习 PEMS04数据集适合采用数据挖掘技术,深度学习方法可以显著提高预测精度和处理复杂交通模式的能力。例如,利用深度学习构建的模型可以自动从数据中学习到表示交通流量的深层特征,并作出准确的交通状况预测。常见的深度学习模型包括卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM),这些模型特别擅长处理序列数据和捕捉时间依赖性。 #### 7. 关键技术 数据挖掘和深度学习技术在交通数据分析中的应用涉及多种方法: - **特征提取**:从原始交通数据中提取有助于交通预测和分析的特征。 - **分类与回归**:根据历史数据进行分类(如交通状况好坏)或回归(如未来某一时间点的交通流量)分析。 - **聚类分析**:将相似的交通模式或数据点分为同一类别,以发现交通网络中的相似性或异常情况。 - **异常检测**:识别交通数据中的异常行为,如意外事故、交通拥堵等。 - **序列预测**:利用时间序列预测模型,例如ARIMA、GARCH或基于深度学习的模型来预测未来交通状况。 #### 8. 总结 PEMS04数据集是一个包含丰富交通信息的宝贵资源,能够帮助研究人员和工程师在交通流量预测、速度预测、拥堵预测等多方面进行深入分析。结合先进的数据挖掘和深度学习技术,该数据集有望带来创新的交通管理解决方案和提高交通系统的运行效率。

加州高速路网PeMS交通流量数据集PEMS04是一个专门针对加利福尼亚州高速公路网络上交通流量情况进行收集和记录的数据集。该数据集详细记录了不同路段、不同时间的交通流量信息,对于研究交通流量、交通拥堵、城市规划、交通预测等领域具有极高的价值。PEMS数据集中的"PEMS"通常指的是Performance Measurement System(性能测量系统),它是加利福尼亚州运输部用于收集交通数据的系统。 数据集PEMS04包含了加利福尼亚州高速公路网络上的交通数据,其中数据采集点覆盖了多个重要高速公路路段。数据集以时间序列的形式提供了详尽的车辆流量信息,这些信息可能包括交通流量计数、速度和占有率等关键指标。时间序列数据使得研究人员能够分析特定路段在不同时间段的交通状况,从而进行交通流量的动态监控、交通管理、预测未来交通流量以及评估交通政策影响等方面的研究。 数据集的结构设计对于分析工作至关重要。通常,PEMS04数据集会以标准化的格式提供,例如CSV文件(逗号分隔值文件)和NPZ文件(压缩的NumPy文件)。CSV文件是一种通用的文本格式,便于数据交换和导入到不同的数据处理软件中,例如Microsoft Excel、R或Python等。每个CSV文件可能包含多个字段,例如时间戳、路段编号、流量计数、平均速度、占有率等。而NPZ文件是NumPy库所使用的特定压缩格式,用于存储NumPy数据结构如数组和记录,这种格式通常用于需要高效存储和快速读取的场景。 标签“数据集”和“交通车流量”暗示了该数据集的主要用途和应用领域。作为数据集,PEMS04是供研究人员、交通工程师、数据分析师等使用的信息资源,用于执行数据分析、机器学习模型训练、交通预测等任务。而“交通车流量”则是数据集的关注重点,交通流量数据是理解和解决交通问题的基础,可以帮助城市规划者更好地分配道路资源,减少交通拥堵,提高道路使用效率。 总体而言,加州高速路网PeMS交通流量数据集PEMS04是一个宝贵的资源,它不仅为交通领域的研究者提供了丰富的基础数据,而且在交通管理、规划和预测等实际应用中发挥着重要作用。通过对该数据集的深入分析,可以推动交通科技的进步,为实现智能化交通系统提供数据支持和科学依据。

PEMs数据集的数据采集方式:由分布在不同地点的xxx个探测器每隔5分钟采集一次,连续采集xxx天。例如PEMS04是由307个探测器每隔5分钟采集一次数据,共采集59天产生的交通流量数据;PEMS08是由170个探测器每隔5分钟采集一次,共采集62天产生的数据。

并且,每个探测器每次采集的数据包含三个维度的特征,分别为:流量、平均速度和平均占有率。

这里对平均占有率进行说明:占有率分为时间占有率和空间占有率,是衡量道路被利用程度的重要指标(我认为它也衡量了拥挤程度)。其中,空间占有率是指在观测时间内,观测路段中各车辆所占道路面积总量与区域道路面积总量的比值;时间占有率是指在观测时间内通过道路某断面的累计时间与该段时间的比值。平均占有率的话取个平均就是了。

基于以上说明,理论上PEMs数据集中的数据维度应该为:

PEMS04:(16992,307,3)

307是指307个探测器,3是指每个探测器每次采集的数据有3个维度特征,16992=59×24×12 (每隔5分钟采集一次数据,因此一小时内可以采集12次,而一天有24小时,又采集了59天,因此就是59×24×12=16992了)

PEMS08:(62×24×12=17856, 170, 3)

项目介绍

PEMS04数据集,源于美国加州旧金山湾区,是深入了解和分析现代交通流动性的关键。覆盖了2018年初两个月的海量信息,涉及近4000个监控点,每五分钟一更新,为交通数据爱好者和研究者开启了一扇深入探索的大门。

大规模节点网络:307个关键节点和3848个探测器,构建了一个密集的监测网络。

高密度时间序列:每5分钟一次的数据采集,保证了时间序列分析的精确度。

邻接矩阵的引入:307x307的邻接矩阵,提供给研究人员宝贵的网络结构信息,便于进行复杂网络分析。

技术栈潜在应用

利用PEMS04,开发者和技术人员可以基于机器学习、深度学习算法,如循环神经网络(RNN)、图神经网络(GCN),开展以下活动:

精准交通流量预测:模型训练以预测特定时段的车流变化,辅助交通规划。

交通状态实时评估:通过分析即时流量数据,快速识别拥堵点,提高应急响应效率。

时空序列建模:结合时间和空间维度,优化路径推荐系统,减少通勤时间。

应用场景深化

从学术研究到实际城市管理,PEMS04数据集的应用前景广阔:

PEMS04数据集不仅是通往交通数据分析殿堂的钥匙,更是推动智能交通系统进步的重要工具。对于致力于解决城市交通难题的开发者、学者而言,这是一份不可多得的财富。立即启程,利用这个数据集解锁更多关于城市交通的秘密,共同勾勒未来交通的美好蓝图吧!

项目介绍

在快节奏的现代社会,对交通流动性的精准预判已成为城市规划和智能交通系统的核心要素。PEMS08数据集,一项源自加利福尼亚州的智慧结晶,正悄然揭开交通数据科学的新篇章。它涵盖了2016年夏季圣贝纳迪诺高速公路上的丰富数据,为我们洞悉城市脉搏提供了珍贵的一手资料。

项目技术分析

PEMS08是一个精心策划的数据宝藏,由1979个传感器构成,分布在8条主要高速公路上,每五分钟记录一次包括交通流量、速度及时间占有率在内的三大核心特征。其时间跨度长达61天,不仅提供连续性时间序列分析的基础,而且通过3个关键特征,展现了复杂交通系统的多维度视角。此外,附带的邻接矩阵,作为网络分析的关键,揭示了交通网的结构逻辑,为研究人员打开了一扇理解大规模交通网络动态的新窗户。

项目及技术应用场景

此数据集的应用潜力无限广阔,特别适合那些致力于解决现代城市挑战的研究者和工程师。首先,在交通流量预测上,它可以帮助开发更加准确的模型,优化路线规划和资源分配。其次,对于交通拥堵预测,利用PEMS08能够提前识别瓶颈,进而实施有效缓解措施。此外,在交通工程领域,它对交通信号优化至关重要,比如调整绿信比,提高道路通行效率。通过对时空序列分析的深入探索,还能促进智能驾驶系统的发展,增强车路协同的能力。

项目特点

高度精细化:5分钟一次的数据捕获,保障了分析结果的可靠性和实时性。

综合性强:覆盖流量、速度和时间占有率,满足多种分析需求。

网络特性明确:邻接矩阵的加入,让基于图论的交通网络分析成为可能,促进了复杂网络行为的理解。

广泛适用性:无论是学术研究还是实际应用,PEMS08都展现出极高的灵活性和适配度。

结语

PEMS08数据集不仅是一堆数字,它是未来交通智能化的基石之一。对于研究者而言,它意味着无数待解锁的知识门径;对于实践者,则是改善城市交通状况的宝贵工具。凭借其高精度、丰富特征以及对交通网络结构的深刻描绘,PEMS08数据集注定将成为推动智能交通系统发展的重要力量。现在就踏上这场探索之旅,挖掘隐藏于数据深处的智慧城市秘密吧!

PEMS04 数据集

PEMS04 是 Performance Measurement System(PEMS)提供的一个交通流数据集,涵盖了2004年的数据。该数据集包含了多个传感器收集到的道路交通流量信息,适用于交通流分析和预测模型的研究与开发。

·特点:高频次采样率,能够捕捉短时间内的交通变化情况,

下载地址:可通过特定平台获取,如开源工具包中的资源链接[^2]。

。使用场景:主要用于短期交通量预测、异常检测及优化信号控制策略等方面。

PEMS07 数据集

PEMS07 同样来自 PEMS 系统,记录了2007年期间加利福尼亚州高速公路系统的运行状态。此版本增加了更多路段的信息覆盖范围,并改进了部分技术细节

交通数据集PEMS08介绍

数据集概述

该交通数据集来源于PeMS网站,包含美国加利福尼亚州南部圣贝纳迪诺市8条高速公路的1979个探测器在2016年7月1日至2016年8月31日期间的数据。这些传感器每5分钟收集一次数据,涵盖了1979个传感器每5分钟经过的车辆数。

数据集详细信息

  • 节点数: 107
  • 特征数: 3
  • 数据时长: 61天
  • 时间窗口: 5分钟

数据内容

该数据集包含以下内容:

  1. 交通流量数据: 记录了每个传感器每5分钟经过的车辆数。
  2. 交通速度数据: 记录了每个传感器每5分钟检测到的车辆速度。
  3. 时间占有率数据: 记录了每个传感器每5分钟的时间占有率。
  4. 邻接矩阵: 一个3*107的邻接矩阵文件,表示了107个路口之间的相邻情况(即连通性)以及节点之间的距离。

应用场景

该数据集可用于以下研究与应用:

  • 交通流量预测
  • 交通速度预测
  • 交通拥堵情况预测
  • 交通信号灯绿信比条件
  • 时间序列分析
  • 时空序列分析

数据集特点

  • 高精度数据: 每5分钟的数据采集频率确保了数据的精确性。
  • 丰富的特征: 包含流量、速度和时间占有率三个关键特征。
  • 邻接矩阵支持: 提供了节点之间的连通性信息,便于进行网络分析。

使用建议

  • 该数据集适用于交通领域的研究,特别是交通预测和时空序列分析。
  • 建议结合邻接矩阵进行网络分析,以更好地理解交通网络的结构和动态变化。

数据集来源

该数据集来源于PeMS网站,原始数据经过整理和处理后提供给用户。

2. 数据特点

超过44,681个检测器每30秒报告一次数据;一旦完成编译30秒的数据集,没有任何间隙,数据就会被聚合成5分钟的增量。各种性能数据可用,如容量、速度、延迟、车辆行驶里程(VMT)、车辆行驶小时(VHT)、行驶时间和年平均日交通流量(AADT);

此数据集的任务是根据历史流量和邻近位置的其他特征预测时空流量。具体来说,在北弗吉尼亚州/华盛顿特区首府地区两条主要高速公路沿线的 36 个传感器位置每 15 分钟测量一次交通量。这 47 个要素包括:1) 在最近的 10 个采样点(10 个要素)期间感应到的交通量的历史序列,2) 工作日(7 个要素),3) 一天中的某个小时(24 个要素),4) 道路方向(4 个要素),5) 车道数(1 个要素),以及 6) 道路名称(1 个要素)。目标是预测未来 15 分钟内所有传感器位置的交通量。通过给定的道路网络,我们知道传感器位置之间的空间连通性。有关详细数据信息,请参阅文件README.docx

明尼苏达州 DoT ATR 站 301 的每小时 94 号州际公路西行交通量,大约位于明尼阿波利斯和明尼苏达州圣保罗之间。包括每小时天气功能和假期,以影响交通量。GitHub - uci-ml-repo/ucimlrepo:用于从 UCI ML 存储库导入数据集的 Python 包

  • TaxiBJ

北京出租车数据集,郑宇,"BJ15_M32x32_T30_InOut.h5",原始数据shape=(5596,2,32,32),"2"代表出In/Out两种流量。"32,32"代表网格化地图形状。

备注:数据应用在ST-ResNet(AAAI17,郑宇的经典,该领域的里程碑)中。

  • NYC-Taxi

纽约出租车数据集,"volume.train.npz",原始数据shape=(1920,10,20,2),"10,20"代表网格化地图形状,同郑宇的"32,32"

Azure 开放数据集中的数据集 - Azure Open Datasets | Microsoft Learn

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

一、SanFrancisco Bay Area

1.数据集包括500辆出租车近30天的(2008年5月17日-6月10日)行驶数据

2.车辆行驶数据的采样时间间隔1min

3.车辆轨迹数据包含:车辆ID-经纬度(位置)-是否载客-时间

4.无瞬时速度

下载链接:点击打开链接

二、Shanghai

1.数据集包括4千辆出租车24个小时(07年2月20日)的行驶数据

2.车辆行驶数据的采样时间间隔为1min

3.车辆轨迹数据包含:车辆ID-Time-经纬度-速度-是否载客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梖梖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值