基于Hadoop的豆瓣电影影评数据分析(大作业报告)

To be No.1026

已于 2024-06-23 20:06:18 修改

阅读量5.6k

点赞数 32

文章标签： hadoop 数据分析大数据

于 2024-06-20 10:30:00 首次发布

本文链接：https://blog.csdn.net/qq_60906390/article/details/139674861

版权

1.绪论

Hadoop 是一个开源的分布式计算平台，由 Apache 软件基金会开发。它的发展历程可以追溯到 2006 年，旨在处理大规模数据。如今，Hadoop 已广泛应用于数据存储、数据处理、数据分析等领域，成为大数据处理的重要技术之一。

本次大作业旨在利用 Hadoop 技术对豆瓣电影影评数据进行分析，通过数据采集、数据分析和数据可视化等步骤，实现对影评数据的深入挖掘。使用的技术包括 Hadoop 生态系统中的 HDFS、MapReduce、Hive 等，以及 Python 编写的爬虫程序。目标是获取影评数据，并进行统计分析和可视化展示。基本步骤包括环境搭建、数据采集、数据分析和数据可视化。

2.环境搭建

2.1系统环境

Linux的版本采用的是centos7 内存2GB 处理器4 硬盘20GB

图2-1

2.2 编程环境

1.Java 版本 jdk1.8.0

图2-2

2.Hadoop版本 hadoop-3.3.0

图2-3

3.根据之前的三次实验hadoop hdfs hbase 都已经配置完成

图2-4

4.Hive的安装配置

先把下载好的安装包上传到虚拟机：rz

图2-5

4.1下载好之后解压

tar -zxf apache-hive-3.1.0-bin.tar.gz-C /opt/module

mv apache-hive-3.1.0-bin hive

解压到/opt/module目录下并且重命名为hive

图2-6

4.2配置环境变量

vim /etc/profile

export HIVE_HOME=/opt/hive

export PATH=$HIVE_HOME/bin:$PATH

配置完成之后启动查看版本号时，报错百度查找原因得知：

1.系统找不到相关jar包

2.同一类型的 jar 包有不同版本存在，系统无法决定使用哪一个

图2-7

删除版本较低的guava-19.0.jar包，把高版本的guava-27.0-jre.jar复制到hive的lib目录下

图2-8

hive-site.xml文件的配置

图2-9

初始化元数据信息schematool -dbType mysql -initSchema

图2-10

先启动hadoop 指令start-all.sh

图2-11

进入hive

图2-12

5.Python版本 python3

图2-13

Python项目结构

图2-14

Java项目结构

图2-15

3.数据采集

3.1 爬虫简介

网络爬虫乃是一种自动的脚本或程序。它能够自动地从万维网上下载内容，而这一过程就被称作网络爬虫。网络爬虫的应用极为广泛。其一，在搜索引擎中，它可作为各类合法站点更新数据的方式。其二，爬虫软件能够当作其他网站以及网络搜索引擎更新网站内容或网站内容索引的工具。其三，网络爬虫通过对被访问页面进行复制，以供搜索引擎进一步处理从而对访问的页面进行索引。通俗来讲，网络爬虫就是运用特定规则的办法去模仿浏览器来完成数据的读取与存储工作，从原则上说，只要是浏览器能做到的事，爬虫基本都能做到。