关于初步处理,请参考地铁大数据挖掘之客流数据预处理——从原始一卡通数据提取城市地铁客流(一)。
上一篇博客对数据进行了初步处理,得到结果如下图:
”_10min“字段代表所处的时间片(比如1代表0:00-0:10),inputnums代表进站客流,outputnums代表出站客流。
然而,这一结果在使用时存在两个问题:
- 我们在计算地铁站时,大部分是只看站点不看线路的。即使是换乘站点,也是几条线路都在一个站点。因此,在"linename"这里存在问题。
- 这样的结果看起来不是很方便。如果我们可以分别用两张二维表格表示进站和出站,两个维度分别是站点和时间片,那最后的结果将会好看很多。
因此,这一篇,我们对上一篇的结果进行进一步优化。