hadoop+spark+hive直播推荐系统 直播可视化分析大屏 数据仓库

本文介绍了使用PythonSelenium抓取直播数据,存储至CSV和MySQL,并通过HDFS上传至Hive进行建模。Spark和Scala用于复杂分析,部分结果导入MySQL,同时利用Flask和Echarts实现数据的动态可视化大屏。创新点包括实时和离线计算能力以及基于真实数据的可视化展示。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开发技术:selenium(Python爬虫)、spark、hadoop、scala、hive、sqoop、Flask、echarts、mysql


分析流程:python爬取直播数据存到.csv文件、mysql数据库(备份数据集),上传CSV到hdfs分布式文件系统上,hive导入csv建模,一部分指标使用hive_sql分析后用sqoop导入mysql,一部分指标使用idea+spark+scala分析计算存入mysql。最终利用flask+echarts构建可视化大屏炫酷


创新点:可视化大屏;spark+hive离线计算、实时计算全部实现;Python采集真实直播数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值