Hadoop完全分布式+spark（python）(1)-CSDN博客

本文链接：https://blog.csdn.net/2401_84140628/article/details/138907421

在这里插入图片描述

感谢每一个认真阅读我文章的人，看着粉丝一路的上涨和关注，礼尚往来总是要有的：

①　2000多本Python电子书（主流和经典的书籍应该都有了）

②　Python标准库资料（最全中文版）

③　项目源码（四五十个有趣且经典的练手项目及源码）

④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）

⑤ Python学习路线图（告别不入流的学习）

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

scp ~/.ssh/authorized_keys slave2:~/.ssh


与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码，这样ssh免密功能就配置好啦，可以在master上尝试 $ ssh slave1 命令 和 $ ssh slave2 命令进行验证是否为免密登录。  
 做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机的，那么我们就来使用XShell软件实现远程登录。  
  


在各个节点的/home/用户名/目录下创建两个文件夹


mkdir software


mkdir servers



**修改Ubuntu时区**


**我选择的是上海的时区 可以修改为BeiJing  根据自己需要进行修改即可**


sudo timedatectl set-timezone Asia/Shanghai      



在Master上：


上传jdk安装包到software，解压到servers


cd ~/software

tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers

mv jdk1.8.0_201 jdk


设置jdk环境变量


vi ~/.bashrc


添加如下代码

export JAVA_HOME=~/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH= ${JAVA_HOME}/lib/dt.jar:$ {JAVA_HOME}/lib/tools.jar:.

export PATH= ${JAVA_HOME}/bin:$ PATH


使得设置生效

source ~/.bashrc


检测是否安装成功


java -version


出现如下版本信息表示jdk安装成功


java version "1.8.0\_201"


Java(TM) SE Runtime Environment (build 1.8.0\_201-b09)


Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)


**Hadoop** **安装配置**


进入[Index of /dist/hadoop/common]( )官网下载Hadoop相应版本



上传到software目录


解压到servers

tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/


重命名文件

mv hadoop-2.7.4/ hadoop


设置环境变量，以后就可以在任意目录下使用Hadoop相关命令


vi ~/.bashrc


添加下面的语句

export HADOOP_HOME=~/servers/hadoop

export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin


使设置生效


source ~/.bashrc



hadoop version 查看hadoop的版本


在hadoop的目录中，bin目录存放相关的一些服务脚本，但一般用的不多


在etc中存放的配置文件 hadoop要修改的配置文件都在这里


在include中存放的是和C++相关的头文件


在lib中存放的是库文件


在libexec中放的是和shell相关的文件


在sbin中存放的是hadoop的一些管理脚本，用的相对比较多


在share中存放的是jar包


在src中存放的是源码包



**Hadoop****中需要配置7个文件**


Hadoop-env.sh 配置Hadoop运行所需的环境变量


Yarn-env.sh 配置yarn运行所需的环境变量


Core-site.xml hadoop核心全局配置文件


Hdfs-site.xml hdfs配置文件，继承core-site.xml配置文件


Mapred-site.xml MapReduce配置文件，继承core-site.xml配置文件


Yarn-site.xml yarn配置文件，继承core-site.xml


Slaves 用来配置DataNode节点。


**hadoop\_env.sh****中**


修改

The java implementation to use.

export JAVA_HOME=/home/spark000/servers/jdk


配置jdk的安装路径


**修改core-site.xml**

根标签

fs.defaultFS hadoop集群文件系统的类型

hdfs://master:8020 主节点以及端口

hadoop.tmp.dir 临时文件存储目录

/home/spark000/servers/hadoop/tmp

```

修改hdfs-site.xml

  <property>

                <name>dfs.namenode.secondary.http-address</name>

                            指定secondarynamenode的主机和端口

                <value>master:50090</value>

        </property>

        <property>

                <name>dfs.replication</name> 指定存储文件副本的数量

                <value>2</value>

        </property>

mapred-site.xml

复制cp mapred-site.xml.template mapred-site.xml

<configuration>

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

<!-- jobhistory properties -->

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>master:10020</value>

</property>

<property>

     <name>mapreduce.jobhistory.webapp.address</name>

     <value>master:19888</value>

</property>

</configuration>

修改yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>设置yarn的主节点

    <value>master</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

修改yarn-env.sh

找到

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

在下面添加

export JAVA_HOME=~/servers/jdk

修改slaves

配置从节点

添加 slave1 slave2

远程分发

scp -r ~/servers/hadoop slave1:~/servers

scp -r ~/servers/hadoop slave2:~/servers

scp /home/hadoop/.bashrc slave1:~/

scp /home/hadoop/.bashrc slave2:~/

分发完毕以后在每个节点都要执行

source ~/.bashrc

格式化文件系统

hdfs namenode -format

然后再启动集群

如果先启动集群再格式化有可能丢失namenode，需要删除tmp文件夹下所有内容，然后重新进行格式化操作

集群安装spark

**(1)**上传安装包到software

cd /home/spark000/software

解压缩spark到servers

tar -zxvf /home/spark000/software/spark-2.4.0-bin-without-hadoop.tgz -C /home/spark000/servers/

进入servers

cd /home/spark000/servers

重命名spark-2.4.0-bin-without-hadoop

mv spark-2.4.0-bin-without-hadoop spark

在Master节点主机的终端中执行如下命令：

vim ~/.bashrc

添加如下配置

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

export SPARK_HOME=/home/spark000/servers/spark

运行source命令，使配置立即生效

source ~/.bashrc

配置slaves文件,将 slaves.template 拷贝到 slaves

$ cd /home/spark000/servers/spark/

$ cp ./conf/slaves.template ./conf/slaves

slaves****文件设置Worker节点。编辑slaves内容,把默认内容localhost替换成如下内容：

slave1
slave2

进入spark

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

vim conf/spark-env.sh

编辑如下内容

export SPARK_DIST_CLASSPATH=$(/home/spark000/servers/hadoop/bin/hadoop )

export HADOOP_CONF_DIR=/home/spark000/servers/hadoop/etc/hadoop

export SPARK_MASTER_IP=192.168.30.131

export JAVA_HOME=/home/spark000/servers/jdk

配置好后，将Master主机上的/home/spark000/servers/spark文件夹复制到各个节点上在Master主机上执行如下命令：

scp  -r /home/spark000/servers/spark spark000@slave1:/home/spark000/servers

scp  -r /home/spark000/servers/spark spark000@slave2:/home/spark000/servers

测试是否安装成功

启动hadoop集群
启动spark集群

在Master节点主机上运行如下命令：

ssh spark000@master “/home/spark000/servers/spark/sbin/start-master.sh”

以启动master节点

ssh spark000@master “/home/spark000/servers/spark/sbin/start-slaves.sh”

以启动slave节点

在Master主机上打开浏览器，访问http://master:8080



（1）关闭Master节点

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取