Hadoop完全分布式+spark(python)(1)

在这里插入图片描述

感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

scp ~/.ssh/authorized_keys slave2:~/.ssh


与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码,这样ssh免密功能就配置好啦,可以在master上尝试 $ ssh slave1 命令 和 $ ssh slave2 命令进行验证是否为免密登录。  
 做完以上操作后系统的准备工作就做好了,但实际在操作主机时是不会真的在主机上操作,而通常是通过一个远程连接软件来操作主机的,那么我们就来使用XShell软件实现远程登录。  
  


在各个节点的/home/用户名/目录下创建两个文件夹


mkdir software


mkdir servers



**修改Ubuntu时区**


**我选择的是上海的时区 可以修改为BeiJing  根据自己需要进行修改即可**


sudo timedatectl set-timezone Asia/Shanghai      



在Master上:


上传jdk安装包到software,解压到servers


cd ~/software



tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers



mv  jdk1.8.0_201 jdk


设置jdk环境变量


vi ~/.bashrc


添加如下代码



export JAVA_HOME=~/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH= J A V A H O M E / l i b / d t . j a r : {JAVA_HOME}/lib/dt.jar: JAVAHOME/lib/dt.jar:{JAVA_HOME}/lib/tools.jar:.

export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH


使得设置生效



source ~/.bashrc


检测是否安装成功


java -version


出现如下版本信息表示jdk安装成功


java version "1.8.0\_201"


Java(TM) SE Runtime Environment (build 1.8.0\_201-b09)


Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)


**Hadoop** **安装配置**


进入[Index of /dist/hadoop/common]( )官网下载Hadoop相应版本



上传到software目录


解压到servers



tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/


重命名文件



mv hadoop-2.7.4/ hadoop


设置环境变量,以后就可以在任意目录下使用Hadoop相关命令


vi ~/.bashrc


添加下面的语句



export HADOOP_HOME=~/servers/hadoop

export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin


使设置生效


source ~/.bashrc



hadoop version 查看hadoop的版本


在hadoop的目录中,bin目录存放相关的一些服务脚本,但一般用的不多


在etc中存放的配置文件 hadoop要修改的配置文件都在这里


在include中存放的是和C++相关的头文件


在lib中存放的是库文件


在libexec中放的是和shell相关的文件


在sbin中存放的是hadoop的一些管理脚本,用的相对比较多


在share中存放的是jar包


在src中存放的是源码包



**Hadoop****中需要配置7个文件**


Hadoop-env.sh 配置Hadoop运行所需的环境变量


Yarn-env.sh 配置yarn运行所需的环境变量


Core-site.xml hadoop核心全局配置文件


Hdfs-site.xml hdfs配置文件,继承core-site.xml配置文件


Mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件


Yarn-site.xml yarn配置文件,继承core-site.xml


Slaves 用来配置DataNode节点。


**hadoop\_env.sh****中**


修改



The java implementation to use.

export JAVA_HOME=/home/spark000/servers/jdk


配置jdk的安装路径


**修改core-site.xml**



   根标签

fs.defaultFS   hadoop集群文件系统的类型

hdfs://master:8020  主节点以及端口

hadoop.tmp.dir   临时文件存储目录

/home/spark000/servers/hadoop/tmp

```

修改hdfs-site.xml

  <property>

                <name>dfs.namenode.secondary.http-address</name>

                            指定secondarynamenode的主机和端口

                <value>master:50090</value>

        </property>

        <property>

                <name>dfs.replication</name> 指定存储文件副本的数量

                <value>2</value>

        </property>

mapred-site.xml

复制cp mapred-site.xml.template mapred-site.xml

<configuration>

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

<!-- jobhistory properties -->

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>master:10020</value>

</property>

<property>

     <name>mapreduce.jobhistory.webapp.address</name>

     <value>master:19888</value>

</property>

</configuration>

修改yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>设置yarn的主节点

    <value>master</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

修改yarn-env.sh

找到

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

在下面添加

export JAVA_HOME=~/servers/jdk

修改slaves

配置从节点

添加 slave1 slave2

远程分发

scp -r ~/servers/hadoop slave1:~/servers

scp -r ~/servers/hadoop slave2:~/servers

scp /home/hadoop/.bashrc slave1:~/

scp /home/hadoop/.bashrc slave2:~/

分发完毕以后在每个节点都要执行

source ~/.bashrc

格式化文件系统

hdfs namenode -format

然后再启动集群

如果先启动集群再格式化有可能丢失namenode,需要删除tmp文件夹下所有内容,然后重新进行格式化操作

集群安装spark

**(1)**上传安装包到software

cd /home/spark000/software

解压缩spark到servers

tar -zxvf /home/spark000/software/spark-2.4.0-bin-without-hadoop.tgz -C /home/spark000/servers/

进入servers

cd /home/spark000/servers

重命名spark-2.4.0-bin-without-hadoop

mv spark-2.4.0-bin-without-hadoop spark

在Master节点主机的终端中执行如下命令:

vim ~/.bashrc

添加如下配置

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

export SPARK_HOME=/home/spark000/servers/spark

运行source命令,使配置立即生效

source ~/.bashrc

配置slaves文件,将 slaves.template 拷贝到 slaves

$ cd /home/spark000/servers/spark/

$ cp ./conf/slaves.template ./conf/slaves

slaves****文件设置Worker节点。编辑slaves内容,把默认内容localhost替换成如下内容:

slave1
slave2

进入spark

cp ./conf/spark-env.sh.template ./conf/spark-env.sh

vim conf/spark-env.sh

编辑如下内容

export SPARK_DIST_CLASSPATH=$(/home/spark000/servers/hadoop/bin/hadoop )

export HADOOP_CONF_DIR=/home/spark000/servers/hadoop/etc/hadoop

export SPARK_MASTER_IP=192.168.30.131

export JAVA_HOME=/home/spark000/servers/jdk

配置好后,将Master主机上的/home/spark000/servers/spark文件夹复制到各个节点上在Master主机上执行如下命令:

scp  -r /home/spark000/servers/spark spark000@slave1:/home/spark000/servers
scp  -r /home/spark000/servers/spark spark000@slave2:/home/spark000/servers

测试是否安装成功

  1. 启动hadoop集群
  2. 启动spark集群

在Master节点主机上运行如下命令:

ssh spark000@master “/home/spark000/servers/spark/sbin/start-master.sh”

以启动master节点

ssh spark000@master “/home/spark000/servers/spark/sbin/start-slaves.sh”

以启动slave节点

在Master主机上打开浏览器,访问http://master:8080

(1)关闭Master节点

如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值