近些年高铁的建设推动了各行各业的经济大发展,高铁站点覆盖了几百个城市,但从时刻表看,每个站点班次的数目是非常不均衡的。有些站点是因为地理优势,停留的车次多,有些站点则可能是规划部门考虑到其他因素综合动态调整。
站点价值挖掘
本次有幸在公网上找到了某天的高铁时刻表数据,包括了车次号、每个站点、出发/到达时间等信息。今天来八卦八卦我们的高铁网络。
光从列表我们能做一些简单的频率统计,比较每个站点每天的车次数目,类似星巴克这样的企业可以参考该数据来进行店铺布局。👇
这种排序法下是否会有一些站点被高估或低估了呢?从图的视角或许会有一些新的发现。我将站点作为实体(节点),车次作为关系(边)数据灌入图中,跟大家一起窥探究竟。
上图中每个黄球代表一个站点,两个站点之间有一个班次就是一根紫色连线,多个班次的话话会多个连线;共统计了397个站点,17k+的班次关系。
首先,我们能很明显地看出站点之间的资源不是均衡的。紫色粗线连接的站点和我们之前的横条柱状图统计的站点相对应。但咱们仔细看还会发现站点之间存在社群现象:
这些社群单从班次数量上来看并不起眼,但对商业嗅觉敏锐的人来说可能是某种价值低洼地。很多站点虽然全国排不上名次,但在片区影响力很强,如👇图的长春西站,可以在这样的站点做重点投资。也可以在整个社群覆盖的优质站点投资地方特色的店铺服务。
谁是鸡头🐔?
用搜索引擎最常用的PageRank算法,可以快速找出每个社群影响力最大的站点👇。长春西、沈阳、沈阳北是一个独立的社群的流量大户,成都东、重庆北则是另一个独立社群的流量大户。我们还会发现有意思的现象:郑州东、武汉、南昌西、合肥南这几个站点不仅在自己所属的社群是流量扛把子,还对接了其他社群。可以作为重点的投资对象。
我们再用Louvain算法,从另一种视角去看的时候,还会发现更多的社群和潜在关系:
基于图结构的算法还有很多很多种,需根据数据的特征和业务目标选择较为合适的算法来探索。精力有限,在此不展开。
尾记
在分析过程中,居然看到有个叫“鲅鱼圈”的站点。当时我还以为数据质量有问题,搜了下还真有。另外,站点这么多、班次这么多,如何规划时刻表、顾及好各方利益,是一项非常不容易的工作;强烈建议相关部门把图技术引进起来~
另外,高铁班次时刻表并不是每天不变的,我们还可以根据其变化趋势来预测未来更有升值空间的站点、城市!