1.数据格式
id int id编号
type int 41表示站间数据,42中间站进出数据 43始末站进出数据
route_id int 线路ID号,10454,10069,120881
bus_id varchar 车辆编号
station_id varchar 站点编号
lon decimal 经度
lat decimal 纬度
speed decimal 速度
direction decimal 方向
gpsflag int gps状态 0有效,1无效
updownflag int 上下行,0上行,1下行
inoutflag int 进出站,0进站,1出站
runningflag int 运营状态,0正常运营,1停止运营
onlineflag int 在线状态,0正常状态,1不在线
create_time timestamp gps时间
共十五个字段,如下截图所示:
2.简单数据清洗
首先,删除线路id编号,因为我们本次处理的是一条线路。根据运营状态、在线状态、gps是否有效,可删除无效数据。
利用上下行的标志位,将简单清理后的数据分成两部分,上行部分和下行部分:
然后,根据不同的公交汽车,把上下行数据按照不通公交车分类。生成两个List。每个List分别对应上行或者下行公共汽车的集合,List的元素就是该公共汽车在数