Hadoop完全分布式+spark（python）

rr8f2haQf

于 2024-04-27 05:13:55 发布

阅读量682

点赞数 9

文章标签：分布式 hadoop spark

本文链接：https://blog.csdn.net/rr8f2haQf/article/details/138237301

版权

设置IP地址

配置好以后点击确定。

修改静态IP地址

sudo vim /etc/netplan/01-network-manager-all.yaml(文件名可能不同)，改完保存，

然后sudo netplan apply。

注意yaml语法格式，**：**之后要加空格

克隆三个节点，master, slave1，slave2

修改主机名 sudo vim /etc/hostname

为什么要设置主机名呢？这是因为在根据master主机克隆的同时把主机名也克隆了，这就导致slave1主机和slave2主机的主机名也为master，因此要进行配置，在slave1,slave2上分别执行

sudo vim /etc/hostname命令并修改master为slave1,slave2

修改IP地址

修改映射 sudo vim /etc/hosts

添加

192.168.30.131 master

192.168.30.132 slave1

192.168.30.133 slave2

为了以后操作方便，我们也为宿主系统配置主机名映射，使用文本编辑器打开 C:\Windows\System32\drivers\etc\host 文件并在文件末尾添加以下配置并保存退出

192.168.30.131 master

192.168.30.132 slave1

192.168.30.133 slave2

修改完主机名和映射以后就可以使用xshell通过ssh协议远程连接linux主机

Xshell中新建三个连接分别命名为master，slave1，slave2，登录用户名为spark000，密码为123456。

下一步就可以在xshell中配置集群内三台主机之间的免密登录。

免密ssh

三个节点分别生成秘钥ssh-keygen -t rsa

分别在三个节点运行 ssh-copy-id master 全部拷贝至master

进入.ssh 目录 cd .ssh

scp ~/.ssh/authorized_keys slave1:~/.ssh

scp ~/.ssh/authorized_keys slave2:~/.ssh

与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码，这样ssh免密功能就配置好啦，可以在master上尝试 $ss h s l a v e 1 命令和$ ssh slave2 命令进行验证是否为免密登录。
做完以上操作后系统的准备工作就做好了，但实际在操作主机时是不会真的在主机上操作，而通常是通过一个远程连接软件来操作主机的，那么我们就来使用XShell软件实现远程登录。

在各个节点的/home/用户名/目录下创建两个文件夹

mkdir software

mkdir servers

修改Ubuntu时区

我选择的是上海的时区可以修改为BeiJing 根据自己需要进行修改即可

sudo timedatectl set-timezone Asia/Shanghai

在Master上：

上传jdk安装包到software，解压到servers

cd ~/software

tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers

mv  jdk1.8.0_201 jdk

设置jdk环境变量

vi ~/.bashrc

添加如下代码

export JAVA_HOME=~/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar:.

export PATH=${JAVA_HOME}/bin:$PATH

使得设置生效

source ~/.bashrc

检测是否安装成功

java -version

出现如下版本信息表示jdk安装成功

java version “1.8.0_201”

Java™ SE Runtime Environment (build 1.8.0_201-b09)

Java HotSpot™ 64-Bit Server VM (build 25.201-b09, mixed mode)

Hadoop 安装配置

进入Index of /dist/hadoop/common官网下载Hadoop相应版本

上传到software目录

解压到servers

tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/

重命名文件

mv hadoop-2.7.4/ hadoop

设置环境变量，以后就可以在任意目录下使用Hadoop相关命令

vi ~/.bashrc

添加下面的语句

export HADOOP_HOME=~/servers/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使设置生效

source ~/.bashrc

hadoop version 查看hadoop的版本

在hadoop的目录中，bin目录存放相关的一些服务脚本，但一般用的不多

在etc中存放的配置文件 hadoop要修改的配置文件都在这里

在include中存放的是和C++相关的头文件

在lib中存放的是库文件

在libexec中放的是和shell相关的文件

在sbin中存放的是hadoop的一些管理脚本，用的相对比较多

在share中存放的是jar包

在src中存放的是源码包

Hadoop****中需要配置7个文件

Hadoop-env.sh 配置Hadoop运行所需的环境变量

Yarn-env.sh 配置yarn运行所需的环境变量

Core-site.xml hadoop核心全局配置文件

Hdfs-site.xml hdfs配置文件，继承core-site.xml配置文件

Mapred-site.xml MapReduce配置文件，继承core-site.xml配置文件

Yarn-site.xml yarn配置文件，继承core-site.xml

Slaves 用来配置DataNode节点。

hadoop_env.sh****中

修改

# The java implementation to use.

export JAVA_HOME=/home/spark000/servers/jdk

配置jdk的安装路径

修改core-site.xml

<configuration>   根标签

 <property>

   <name>fs.defaultFS</name>   hadoop集群文件系统的类型

   <value>hdfs://master:8020</value>  主节点以及端口

 </property> 

 <property>

   <name>hadoop.tmp.dir</name>   临时文件存储目录

   <value>/home/spark000/servers/hadoop/tmp</value>

 </property>

</configuration>

修改hdfs-site.xml

  <property>

                <name>dfs.namenode.secondary.http-address</name>

                            指定secondarynamenode的主机和端口

                <value>master:50090</value>

        </property>

        <property>

                <name>dfs.replication</name> 指定存储文件副本的数量

                <value>2</value>

        </property>

mapred-site.xml

复制cp mapred-site.xml.template mapred-site.xml

<configuration>

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

<!-- jobhistory properties -->

<property>

    <name>mapreduce.jobhistory.address</name>

    <value>master:10020</value>

</property>

<property>

     <name>mapreduce.jobhistory.webapp.address</name>

     <value>master:19888</value>

</property>

</configuration>

修改yarn-site.xml

<property>

    <name>yarn.resourcemanager.hostname</name>设置yarn的主节点

    <value>master</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

  </property>

修改yarn-env.sh

找到

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

在下面添加

export JAVA_HOME=~/servers/jdk

修改slaves

配置从节点

添加 slave1 slave2

远程分发

scp -r ~/servers/hadoop slave1:~/servers

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

rr8f2haQf

关注

9
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Hadoop完全分布式+spark（python）

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。
复制链接

扫一扫