基于Hadoop的豆瓣影视数据分析

Pseudo-love453

已于 2024-03-24 22:55:34 修改

阅读量2.5k

点赞数 33

文章标签： hadoop 大数据 spring boot 毕业设计 mapreduce java

于 2024-01-09 12:43:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56520755/article/details/135473390

版权

课题简介

网络电影平台拥有大量的影片库资源，每天数千万用户活跃在平台上，拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面，更是拥有数万的影视作品形成作品库，如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计和实现基于Hadoop的影视数据分析系统，可以为影视产业提供重要的数据支持和决策方向，帮助影视从业者更好地了解观众需求、优化内容创作、改进营销策略，提高影视作品的商业成功率和用户满意度。同时，该系统也为研究人员和学者提供了一个丰富的数据资源，用于对影视产业进行深入研究和分析。

过程要求

1、搭建Hadoop分布式系统环境。

2、爬取某网站电影名、评论数、评分、评论、国家、类型、年份等数据，存储到HDFS。

3、数据清洗，去掉缺失值、空值等，做必要的数据转换.

4、MapReduce数据分析，分析维度：所属国家、类型、评论量、评分、等多个维度统计分析。

5、通过数据可视化技术，将复杂的影视数据以直观的图像呈现，并展示流行趋势预测结果。

使用技术

Hadoop、MySQL、Python、Pandas、Java、SpringBoot、Html、JS、CSS、Echarts

使用软件

VMware Workstation、MobaXterm、Idea、DBeaver

1 搭建Hadoop分布式系统环境

这里我们使用Hadoop完全分布式，搭建过程不再描述，可以在网上搜索教程。

1.启动三台虚拟机

2.开启hadoop集群

用MobaXterm图形界面用户操作工具连接虚拟机，启动hadoop集群：

在配置了 NameNode 的节点（node1）启动 HDFS：

[root@node1 ~]# start-dfs.sh

在配置了 ResourceManager 的节点（node2）启动 YARN

[root@node2 ~]$ start-yarn.sh

（下图启动方式是设置了一键启动脚本）

3.确认网页能打开

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。