简介
该项目主要分析深圳通刷卡数据,通过大数据技术来研究深圳地铁客运能力及探索优化服务的方向
主要讲解Flink流处理实时分析部分,离线部分较简单,暂时略过
项目流程
采用python请求深圳地铁数据API,将数据发送至Kafka和MySQL。
kafka部分用于实时计算,MySQL部分模仿业务数据,用于离线分析
Flink连接Kafka进行实时统计各站收入情况
将统计的结果Sink到Mysql进行可视化展示
离线部分用sqoop将业务数据导入到hive中进行分析,最终将分析完的数据导出到MySQL用于可视化展示
整体使用azkaban进行调度
组件版本
python 3.6.6
java 1.8
scala 2.11
kafka_2.11-2.4.1
zookeeper_3.4.6
flink 1.14.0
hadoop 2.7.6
sqoop 1.4.6