设计网站销售数据分析系统的体系结构;
4)在MySql平台上设计需要存储数据的数据库;
5)搭建自动化分布式爬虫,从大众点评网爬取数据并存入数据库中;
6)利用Spark从数据库中读取数据并进行分析,筛选口碑最好的十户商家,筛选人均消费最高的十户商家,筛选卖得最好的是个商品,筛选买的最贵的十户商家,并分析口碑和销售的关系等;
7)对分析结果进行可视化。
筛选口碑最好的十户商家,筛选人均消费最高的十户商家,筛选卖得最好的是个商品,筛选买的最贵的十户商家,并分析口碑和销售的关系等;
使用python实现
筛选数据后进行可视化,筛选最好的几个商家等等
爬虫分析部分没发展示
解析后的数据
存储到excel文件的数据
存储到数据库的数据
【前面数据爬虫、出于敏感考虑,就不贴了】
分析不同变量之间的关系
饼图
陪跑了半个月,终于结束了