1、TrAISformer 论文数据集
简介:
论文中使用的数据由丹麦海事局(DMA)提供。 有关预处理步骤的详细信息,请参阅论文。预处理代码可在此处获得:https://github.com/CIA-Oceanix/GeoTrackNet/blob/master/data/csv2pkl.py
数据集链接:
TrAISformer/data/ct_dma at main · CIA-Oceanix/TrAISformer · GitHub
效果图:
数据格式:
(1)源文件是pkl格式,且已经划分为train、val、test数据集,加起来一共是13679 组轨迹数据。合并后的pkl格式文件不到50M,转换为csv文件之后90M左右。
(2)具体数据组成格式:用字典存储两个键值对。
船舶的唯一编号mmsi,
多组轨迹traj。traj中属性按顺序为:经度、维度、速度、航向、时间戳、mmsi。
(3)相邻数据之间的间隔 1分钟,即时间率是一分钟;
(4)可以用于长周期轨迹预测。其中大于64个连续时间点(64分钟的轨迹),有7760组;大于128的只有890组。可以手动把mmsi相同的合并,获得连续时间更长的轨迹。原论文中有提到3h即180个连续的时间点轨迹进行测试。
2、长周期轨迹预测的AIS
(1)文件解压后2.5G,train文件夹内有18329个csv文件,test文件夹有4043个csv文件。
(2)与上面的数据集的区别是,第一个数据集只有三个pkl文件,每个文件包含多个不同船舶的轨迹;
第二个数据集每个csv文件都是mmsi不同的船舶。
(3)其中最小的csv文件大小24K,有353个连续时间点的轨迹数据。
最大的csv文件,有6万多条轨迹,但其中有部分是航速为0(静止)的。
(4)csv文件的属性名,以及部分文件最后一列的船只类型是乱码,但不影响实验。
对应的属性分别是 mmsi ,经度lat, 维度lon, 航速SOG, 航向角度COG, time,船只类型。
(5)相邻轨迹信息的时间间隔是10分钟。
这两个数据集的质量比较高,速度为0 的静止船舶轨迹较少,比较适合用于轨迹预测实验。