开发技术:selenium(Python爬虫)、spark、hadoop、scala、hive、sqoop、Flask、echarts、mysql
分析流程:python爬取直播数据存到.csv文件、mysql数据库(备份数据集),上传CSV到hdfs分布式文件系统上,hive导入csv建模,一部分指标使用hive_sql分析后用sqoop导入mysql,一部分指标使用idea+spark+scala分析计算存入mysql。最终利用flask+echarts构建可视化大屏炫酷
创新点:可视化大屏;spark+hive离线计算、实时计算全部实现;Python采集真实直播数据