概述
这是关于spark的一个稍微复杂的一个Demo,通过对一个电商网站模拟数据的处理,来加深spark的应用。首先产生模拟数据,模拟数据分为本地数据和实时数据,后续的分析针对这两种不同的数据有着不同的操作。总共有十多个小需求,通过对数据进行分析,产生结果后存储进Mysql数据库。数据的整体流向如下所示:
项目的github 地址为 https://github.com/XiaoQQin/Spark-Porjects
功能模块
该项目总体模块有2个:离线统计和实时统计。离线统计针对本地数据作出一系列的分析,实时统计则一边产生数据一边进行分析,两个模块各有不同的功能。 各个模块的功能如下所示: