基于Hadoop的豆瓣影视数据分析

课题简介

       网络电影平台拥有大量的影片库资源,每天数千万用户活跃在平台上,拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面,更是拥有数万的影视作品形成作品库,如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计和实现基于Hadoop的影视数据分析系统,可以为影视产业提供重要的数据支持和决策方向,帮助影视从业者更好地了解观众需求、优化内容创作、改进营销策略,提高影视作品的商业成功率和用户满意度。同时,该系统也为研究人员和学者提供了一个丰富的数据资源,用于对影视产业进行深入研究和分析。

 

过程要求

1、搭建Hadoop分布式系统环境。

2、爬取某网站电影名、评论数、评分、评论、国家、类型、年份等数据,存储到HDFS。

3、数据清洗,去掉缺失值、空值等,做必要的数据转换.

4、MapReduce数据分析,分析维度:所属国家、类型、评论量、评分、等多个维度统计分析。

5、通过数据可视化技术,将复杂的影视数据以直观的图像呈现,并展示流行趋势预测结果。

 

使用技术

Hadoop、MySQL、Python、Pandas、Java、SpringBoot、Html、JS、CSS、Echarts

 

使用软件

VMware Workstation、MobaXterm、Idea、DBeaver

 

 

1 搭建Hadoop分布式系统环境

       这里我们使用Hadoop完全分布式,搭建过程不再描述,可以在网上搜索教程。

 

1.启动三台虚拟机

51f37f56b08d412ea7517b2059d4ea21.png

 

2.开启hadoop集群

用MobaXterm图形界面用户操作工具连接虚拟机,启动hadoop集群:

在配置了 NameNode 的节点(node1)启动 HDFS:
[root@node1 ~]# start-dfs.sh
在配置了 ResourceManager 的节点(node2)启动 YARN
[root@node2 ~]$ start-yarn.sh
 

(下图启动方式是设置了一键启动脚本)3d73723814e047628a219e7faba870d2.png

 

3.确认网页能打开

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值