课题简介
网络电影平台拥有大量的影片库资源,每天数千万用户活跃在平台上,拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面,更是拥有数万的影视作品形成作品库,如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计和实现基于Hadoop的影视数据分析系统,可以为影视产业提供重要的数据支持和决策方向,帮助影视从业者更好地了解观众需求、优化内容创作、改进营销策略,提高影视作品的商业成功率和用户满意度。同时,该系统也为研究人员和学者提供了一个丰富的数据资源,用于对影视产业进行深入研究和分析。
过程要求
1、搭建Hadoop分布式系统环境。
2、爬取某网站电影名、评论数、评分、评论、国家、类型、年份等数据,存储到HDFS。
3、数据清洗,去掉缺失值、空值等,做必要的数据转换.
4、MapReduce数据分析,分析维度:所属国家、类型、评论量、评分、等多个维度统计分析。
5、通过数据可视化技术,将复杂的影视数据以直观的图像呈现,并展示流行趋势预测结果。
使用技术
Hadoop、MySQL、Python、Pandas、Java、SpringBoot、Html、JS、CSS、Echarts
使用软件
VMware Workstation、MobaXterm、Idea、DBeaver
1 搭建Hadoop分布式系统环境
这里我们使用Hadoop完全分布式,搭建过程不再描述,可以在网上搜索教程。
1.启动三台虚拟机
2.开启hadoop集群
用MobaXterm图形界面用户操作工具连接虚拟机,启动hadoop集群:
(下图启动方式是设置了一键启动脚本)