基于Hadoop的豆瓣电影影评数据分析(大作业报告)

1.绪论

        Hadoop 是一个开源的分布式计算平台,由 Apache 软件基金会开发。它的发展历程可以追溯到 2006 年,旨在处理大规模数据。如今,Hadoop 已广泛应用于数据存储、数据处理、数据分析等领域,成为大数据处理的重要技术之一。

        本次大作业旨在利用 Hadoop 技术对豆瓣电影影评数据进行分析,通过数据采集、数据分析和数据可视化等步骤,实现对影评数据的深入挖掘。使用的技术包括 Hadoop 生态系统中的 HDFS、MapReduce、Hive 等,以及 Python 编写的爬虫程序。目标是获取影评数据,并进行统计分析和可视化展示。基本步骤包括环境搭建、数据采集、数据分析和数据可视化。

2.环境搭建

2.1系统环境

Linux的版本采用的是centos7 内存2GB 处理器4 硬盘20GB

图2-1

2.2 编程环境

1.Java 版本 jdk1.8.0

图2-2

2.Hadoop版本 hadoop-3.3.0

图2-3

3.根据之前的三次实验hadoop hdfs hbase 都已经配置完成

图2-4

4.Hive的安装配置

先把下载好的安装包上传到虚拟机:rz

图2-5

4.1下载好之后解压

tar -zxf apache-hive-3.1.0-bin.tar.gz-C /opt/module

mv apache-hive-3.1.0-bin hive

解压到/opt/module目录下并且重命名为hive

图2-6

4.2配置环境变量

vim /etc/profile

export HIVE_HOME=/opt/hive

export PATH=$HIVE_HOME/bin:$PATH

配置完成之后启动查看版本号时,报错百度查找原因得知:

1.系统找不到相关jar包

2.同一类型的 jar 包有不同版本存在,系统无法决定使用哪一个

图2-7

删除版本较低的guava-19.0.jar包,把高版本的guava-27.0-jre.jar复制到hive的lib目录下

图2-8

hive-site.xml文件的配置

图2-9

初始化元数据信息schematool -dbType mysql -initSchema

图2-10

先启动hadoop  指令start-all.sh

图2-11

进入hive

图2-12

5.Python版本 python3  

图2-13

Python项目结构

图2-14

Java项目结构

图2-15

3.数据采集

3.1 爬虫简介

        网络爬虫乃是一种自动的脚本或程序。它能够自动地从万维网上下载内容,而这一过程就被称作网络爬虫。网络爬虫的应用极为广泛。其一,在搜索引擎中,它可作为各类合法站点更新数据的方式。其二,爬虫软件能够当作其他网站以及网络搜索引擎更新网站内容或网站内容索引的工具。其三,网络爬虫通过对被访问页面进行复制,以供搜索引擎进一步处理从而对访问的页面进行索引。 通俗来讲,网络爬虫就是运用特定规则的办法去模仿浏览器来完成数据的读取与存储工作,从原则上说,只要是浏览器能做到的事,爬虫基本都能做到。

3.1.1 requests库简介

        requests 是一个极为实用的 Python HTTP 客户端库,在进行爬虫以及测试服务器响应数据等操作时常常会用到。requests 属于 Python 语言的第三方库,其专门用于发送 HTTP 请求,在使用上比 urllib 要简洁许多。

3.1.2 BeautifulSoup库简介

        BeautifulSoup 是 Python 的一个库,其最为主要的功能便是从网页中爬取我们所需要的数据。BeautifulSoup 会把 html 解析成对象来加以处理,能将整个页面转换为字典或数组的形式。

3.2 编写爬虫脚本

def

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值