背景
现有船舶的航线中采样的数据库,采样的总时长为3个月,仅采样航速静止(小于1节)的数据,关键有效数据主要有经纬度/实时吃水量。
思路
基于站点附近轮船有停靠且航行速度慢,故取样点多的基础认识,计划使用聚类方法定位LNG站点位置,并基于船舶吃水量的变化判断站点的属性:进口/出口/停泊。
Step 1: 数据预处理
基于原始数据文件中的关键数据,分别对应经度(long)、纬度(lati)、吃水量(draft)。数据中相邻若干行两两之间若基于经纬度计算得到的距离小于5千米,则将这些数据视为同一个坐标点,位置信息存在取样误差,位置信息(经度、维度)取均值得到;若相邻行计算距离大于5km,则两个数据视为不同的有效坐标点。至此,位置信息处理完毕,后续基于吃水量变化情况判断船只行为。如果吃水量变大,则船只货物增多,标记为1,表示进站;反之如果吃水量减小,则船只货物减少,标记为-1,表示出站;若吃水量不变,则船只货物不变,标记为0,即船只正常航行或停泊。本段具体代码如下所示,
for i in range(len(df)):
cur_pt = [df.loc[i, attr] for attr in attr_list]
# 5000m / 5km
if haversine_distance(cur_pt,temp_pt) < 5: # not include into data, the position of adjacent line (in df) is so close, that regard it as the sam