先配置jdk和hadoop环境
在Windows上下载jdk和hadoop包之后传到linux主机当中
例如:tar -zxvf /opt/jdk版本.tar.gz -C /usr/local/
tar -zxvf /opt/Hadoop版本.tar.gz -C /usr/local/
1、在配置hadoop中的文件
cd /usr/local/hadoop-3.3.0/etc/Hadoop
vi hadoop-env.sh
进入文件之后,添加jdk的环境变量,如下:
export JAVA_HOME=/home/hadoop/software/jdk1.8.0_171
注意:后面是写自己的路径
添加好之后保存退出
2、配置NameNode所在的主机或者通讯地址及NameNode格式化后的目录的路径
vi core-site.xml
进入文件之后,滑到文件最下边,在<configuration></configuration>中添加如下内容
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadooptest:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/software/hadooptmp</value>
</property>
添加好之后保存退出
注意:这里的hadooptest是我的主机名,对应改成自己的主机名
这里的/home/hadoop/software/hadooptmp是第一步创建Hadooptmp的路径
3、配置DataNode的数据块冗余度
vi hafs-site.xml
进入文件之后,滑到文件最下边,在<configuration></configuration>中添加如下内容
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
添加好之后保存退出
4、配置MapReduce运行框架的yarn容器
vi mapred-site.xml
进入文件之后,滑到文件最下边,在<configuration></configuration>中添加如下内容
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
添加好之后保存退出
5、配置ResourceManager所在的主机及MapReduce的shuffer方式
vi yarn-site.xml
进入文件之后,滑到文件最下边,在<configuration></configuration>中添加如下内容
<property>
<name>yarn.nodemanger.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
添加好之后保存退出
6、配置hadoop环境变量
vi /etc/profile
在文件中添加如下内容
export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/home/hadoop/software/hadoop-3.3.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
注意:这里的/home/hadoop/software/hadoop-3.3.0是hadoop存放的路径,对应改成自己存放hadoop的路径即可
7、更新环境变量
source /etc/profile
在把hadoop文件的权限给hadoop用户并切换hadoop用户启动hadoop相关进程
start-all.sh
然后查看进程
jps
然后配置伪分布式单机集群spark和scala
先到官网下载spark包
解压 tar -zxvf /opt/spark版本.tar -C /usr/local
进入spark中修改配置文件
cd /usr/local/spark版本/conf/
复制spar环境配置文件
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
在文件末尾加上
exportJAVAHOME=/usr/java/idk版本
exportHADOOPHOME=/usr/local/hadoop版本
exportHADOOP_CONF_DIR=/usr/local/hadoop版本/etc/Hadoop
exportSPARKMASTERIP=自己的主机名或者ip地址
exportSPARKLOCALIP=自己的主机名或者ip地址
然后保存退出
进到sbin目录下启动spark
cd /usr/local/spark版本/sbin
./start-all.sh
jps查看一下
进入spark目录中启动spark-shell
cd /usr/local/spark版本
./bin/spark-shell
在网址栏输入ip:8080查看
配置scala先到官网下载scala包并解压
tar -zxvf /opt/scala版本 -C /usr/local/
配置环境变量
添加
export SCALA_HOME=/usr/local/scala版本
export PATH=$PATH:$SCALA_HOME/bin
注意:saprk是软件scala是环境