1.绪论
Hadoop 是一个开源的分布式计算平台,由 Apache 软件基金会开发。它的发展历程可以追溯到 2006 年,旨在处理大规模数据。如今,Hadoop 已广泛应用于数据存储、数据处理、数据分析等领域,成为大数据处理的重要技术之一。
本次大作业旨在利用 Hadoop 技术对豆瓣电影影评数据进行分析,通过数据采集、数据分析和数据可视化等步骤,实现对影评数据的深入挖掘。使用的技术包括 Hadoop 生态系统中的 HDFS、MapReduce、Hive 等,以及 Python 编写的爬虫程序。目标是获取影评数据,并进行统计分析和可视化展示。基本步骤包括环境搭建、数据采集、数据分析和数据可视化。
2.环境搭建
2.1系统环境
Linux的版本采用的是centos7 内存2GB 处理器4 硬盘20GB
图2-1
2.2 编程环境
1.Java 版本 jdk1.8.0
图2-2
2.Hadoop版本 hadoop-3.3.0
图2-3
3.根据之前的三次实验hadoop hdfs hbase 都已经配置完成
图2-4
4.Hive的安装配置
先把下载好的安装包上传到虚拟机:rz
图2-5
4.1下载好之后解压
tar -zxf apache-hive-3.1.0-bin.tar.gz-C /opt/module
mv apache-hive-3.1.0-bin hive
解压到/opt/module目录下并且重命名为hive
图2-6
4.2配置环境变量
vim /etc/profile
export HIVE_HOME=/opt/hive
export PATH=$HIVE_HOME/bin:$PATH
配置完成之后启动查看版本号时,报错百度查找原因得知:
1.系统找不到相关jar包
2.同一类型的 jar 包有不同版本存在,系统无法决定使用哪一个
图2-7
删除版本较低的guava-19.0.jar包,把高版本的guava-27.0-jre.jar复制到hive的lib目录下
图2-8
hive-site.xml文件的配置
图2-9
初始化元数据信息schematool -dbType mysql -initSchema
图2-10
先启动hadoop 指令start-all.sh
图2-11
进入hive
图2-12
5.Python版本 python3
图2-13
Python项目结构
图2-14
Java项目结构
图2-15
3.数据采集
3.1 爬虫简介
网络爬虫乃是一种自动的脚本或程序。它能够自动地从万维网上下载内容,而这一过程就被称作网络爬虫。网络爬虫的应用极为广泛。其一,在搜索引擎中,它可作为各类合法站点更新数据的方式。其二,爬虫软件能够当作其他网站以及网络搜索引擎更新网站内容或网站内容索引的工具。其三,网络爬虫通过对被访问页面进行复制,以供搜索引擎进一步处理从而对访问的页面进行索引。 通俗来讲,网络爬虫就是运用特定规则的办法去模仿浏览器来完成数据的读取与存储工作,从原则上说,只要是浏览器能做到的事,爬虫基本都能做到。
3.1.1 requests库简介
requests 是一个极为实用的 Python HTTP 客户端库,在进行爬虫以及测试服务器响应数据等操作时常常会用到。requests 属于 Python 语言的第三方库,其专门用于发送 HTTP 请求,在使用上比 urllib 要简洁许多。
3.1.2 BeautifulSoup库简介
BeautifulSoup 是 Python 的一个库,其最为主要的功能便是从网页中爬取我们所需要的数据。BeautifulSoup 会把 html 解析成对象来加以处理,能将整个页面转换为字典或数组的形式。
3.2 编写爬虫脚本
def