【Hadoop】hadoop+spark配置

dominic_z

已于 2022-12-20 22:58:12 修改

阅读量5.3k

点赞数 2

分类专栏：大数据文章标签：大数据

于 2019-03-28 19:47:30 首次发布

本文链接：https://blog.csdn.net/dominic_z/article/details/88876587

版权

本文记录了在CentOS 7环境下，配置Hadoop和Spark的详细步骤，包括Java、Scala的安装，Hadoop的环境配置，以及Spark的连接设置。在搭建过程中，强调了Hadoop的Namenode和Datanode、Yarn的ResourceManager和NodeManager的验证，以及Spark的配置和测试。此外，还提到了在没有Hadoop的情况下，如何单独配置Spark的本地环境。

摘要由CSDN通过智能技术生成

不是教程，教程请看http://www.cnblogs.com/zyrblog/p/8510506.html
只是个人笔记
发现了一个尴尬事

首先需要说明的是，spark+hdfs是标准的业界应用搭配，从hdfs里读文件，用spark处理
但如果只是为了学spark，建议搭建单节点的伪分布式，文件读取全从本地读取，少个hdfs少点破事，因为如果用的是真的分布式，那么读取本地文件的时候，要求每个节点都有一个对应的文件才行。

准备材料

一台能联网的电脑
VMware 14
Centos 7 1801 64bit 我还是喜欢centos多一些，old fashion，好吧其实是装了一次ubuntu发现里面缺的东西有点多，ifconfig，vim都没有还得自己安，烦
jdk-8u191-linux-x64.tar.gz
spark-2.3.3-bin-hadoop2.7.tgz
hadoop-2.9.1.tar.gz
Scala 2.11.12

spark hadoop java scala之间有版本约束，要注意看文档，
spark对hadoop和scala和java的版本有要求，scala对java的版本也有要求

安装虚拟机

装好vmware 安装linux系统注意再安装的时候一定要选择稍后安装操作系统，否则默认是最小化安装，里面的东西都不全，还要后装很多东西
时区一定要选对！！
尽量装英文的
配置虚拟机各种东西之后，网络选择nat，之后再改ip
在这里插入图片描述

安装的时候要完整安装，一定完整安装，要不屁事太多烦得很
别忘了设置用户密码，不同主机的用户名保证一致