Hadoop简介、安装与环境变量配置_hadoop环境变量

最新推荐文章于 2024-07-17 17:53:42 发布

2401_84181704

最新推荐文章于 2024-07-17 17:53:42 发布

阅读量741

点赞数 10

分类专栏： 2024年程序员学习文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/2401_84181704/article/details/137652474

版权

2024年程序员学习专栏收录该内容

78 篇文章 0 订阅

订阅专栏

解压到指定目录

大数据的学习和使用都是集群化的，为更好的进行集群设置，请尽量保证相同的操作系统和应用层配置。如，将软件和配置文件写在指定路径下，不要随意修改。

mkdir -p ${Software}/jdk
tar -xzvf openjdk-8u43-linux-x64.tar.gz --strip-components 1 -C ${Software}/jdk

直接解压会生成父目录，Java的版本不同会造成父目录的不同，所以在此处使用指定路径的方式，方便后期更好的升级环境
在这里和之后中通过${}表明根据自己的环境自定义值
指定路径解压前，通过mkdir -p命令确保指定路径存在
–strip-components Number：解压时清除Number个引导目录，一般情况下，Number为1表示不包含打包前原目录
-C：指定解压路径

Java安装与环境变量配置

Linux的环境变量设置一般为在相应的文件中添加环境变量信息。根据使用权限的不同，可以配置不同的环境变量。

当前用户环境变量：~/.bash_profile
- ~：当前用户的工作路径
全局环境变量：/etc/profile

在这里我们以全局环境变量为例，配置Java环境变量。Java环境变量主要为配置JAVA_HOME，PATH。Java环境变量可以通过如vim手动打开写入方式，也可通过标准流输出追加文件内容方式写入，为更好的方便后期集群中环境脚本的开发，这里采用标准流输出追加文件内容方式配置环境变量。

echo "# >>> jdk initialize >>>" >> /etc/profile
echo "export JAVA\_HOME=${Software}/jdk" >> /etc/profile
echo "export PATH=${JAVA\_HOME}/bin:${PATH}" >> /etc/profile
echo "# <<< jdk initialize <<<" >> /etc/profile

开头和结尾的主要是为了标识Java安装位置，为注释内容，不生效
Linux中>>表示为文档后追加文件内容
若无法写入，检查是否是权限的问题，可以切换为root账号执行操作。或写入自己环境中的配置文件

重载环境变量配置文件

将环境变量写入配置文件后，环境变量不会立即生效，需要重新加载配置文件，Linux中使用source命令重新加载配置文件。

source /etc/profile

环境配置测试

执行java -version和javac -version有正确的输出即表示Java环境配置成功。

$ java -version
openjdk version "1.8.0\_43"
OpenJDK Runtime Environment (build 1.8.0_43-b03)
OpenJDK 64-Bit Server VM (build 25.40-b25, mixed mode)

$ javac -version
javac 1.8.0_43

Hadoop安装与环境变量配置

固定IP

在集群中，最重要的就是主机与主机之间能够相互访问到。所以需要通过相应的标识来识别到对应的节点。在计算机中，可以通过域名和IP地址的方式识别到相应的服务器，在Hadoop集群的配置中也是如此。在同一网段下，进行IP设置，可以考虑采用静态IP的方式而不是DHCP动态IP，防止节点IP发生变化无法访问。

在使用云系统的情况下，请先自己购买云服务器的平台先设置VPC（Virtual Private Cloud）云虚拟局域网，然后在购买主机，保证购买的主机在同一个局域网，能够相互访问
本系统采用容器的方式组集群，借助容器的VIP虚拟IP的概念，可以不用考虑固定容器内部IP，而是通过容器名（类似于域名）的方式访问节点
虚拟机组集群用户可网上自行搜索资料，固定自己的IP

为方便访问子节点（IP不好记），可以考虑为自己的集群节点配置一个本地的host，这样可以直接用类似域名的方式直接访问集群节点。
Linux中将host主机名映射配置写在/etc/hosts文件中，这样之后直接访问`

{HostMapName}

HostMapName就可以访问相应的节点。

sudo echo "${StaticIP} ${HostMapName}" >> /etc/hosts

设置SSH免密登录

Hadoop在启动时，只需要在主节点执行Hadoop执行脚本，Hadoop会自动根据配置启动主从节点的服务。但是Hadoop在启动服务时，主节点需要访问所有节点，然后从相应节点中启动守护进程，所以配置主节点到所有节点之间的免密登录（包括主节点到主节点自身之间的免密登录）。

生成SSH密钥

ssh-keygen -t rsa -b 4096 -f ～/.ssh/id_rsa -N "" -q

-t：指定生成密钥的算法参数
- rsa：默认非对称加密算法，加解密速度慢，生成时间慢，安全性不如ed25519算法，但兼容性高，应用广泛
- ed25519：带椭圆曲线的非对称加密算法，加解密速度快，生成速度快，安全性更高
- ed25519-sk：-sk代表安全密钥
- dsa：安全性不高，基本不在使用，在部分的场景中已被遗弃
- ecdsa：带椭圆曲线的dsa算法
- ecdsa-sk
-b：指定密钥长度
-f：保存密钥的文件路径
-N：提供一个新密码，""表示密码为空
-q：静默模式，直接输出密钥对，不输出实现过程中产生的信息
通过设置-f，-N，-q参数，直接生成密钥，而不是交互式生成密钥，方便后期集群脚本的开发

设置免密登录

ssh-copy-id ${HostMapName}

使用ssh-copy-id可以将公钥传输到指定的主机上。但是在使用ssh-copy-id传输公钥时，需要输入相应的账户和密码，所以可以通过sshpass来执行免密操作。

sshpass -p ${USER\_PASSWORD} ssh-copy-id ${HostMapName}

Hadoop的下载

Hadoop 下载地址

这里选择写本文时的最新版3.3.6进行下载

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

解压到指定位置

tar -xzvf hadoop-3.3.6.tar.gz --strip-components 1 -C ${Software}/hadoop

环境变量配置

系统环境变量

echo "# >>> hadoop initialize >>>" >> /etc/profile
echo "export HADOOP\_HOME=${Software}/hadoop" >> /etc/profile
echo "export HADOOP\_CONF\_DIR=${HADOOP\_CONF\_DIR}/etc/hadoop" >> /etc/profile
echo "export HADOOP\_LOG\_DIR=${HADOOP\_LOG\_DIR}" >> /etc/profile
echo "export HADOOP\_DATA\_HOME=${HADOOP\_DATA\_HOME}" >> /etc/profile
echo "export PATH=${HADOOP\_HOME}/bin:${PATH}" >> /etc/profile
echo "export PATH=${HADOOP\_HOME}/sbin:${PATH}" >> /etc/profile
echo "# <<< hadoop initialize <<<" >> /etc/profile

bin：一般存放着软件的相关执行文件
sbin：hadoop的super bin目录。是Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。

`${HADOOP_CONF_DIR}/workers`工作节点配置

workers主要功能为记录所有的数据节点的主机名或IP地址。将集群的所有节点的主机名或者IP地址写入workers文件即可。

node1
node2


**自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。**

**深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！**

**因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。**
![img](https://img-blog.csdnimg.cn/img_convert/70e9e38af42897e39691ca87898c59a3.png)
![img](https://img-blog.csdnimg.cn/img_convert/ebfdcba16350ceaad621a24354520703.png)
![img](https://img-blog.csdnimg.cn/img_convert/201f8526631a8b2df118b77c33102692.png)
![img](https://img-blog.csdnimg.cn/img_convert/6966ea4fe153efb61f6755f862933a71.png)
![img](https://img-blog.csdnimg.cn/img_convert/340fedeb4d25cfb023bd8e30517cdd95.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
![img](https://img-blog.csdnimg.cn/img_convert/37495e7bdf2d620527026662cba2298c.png)

-AaXz8YTQ-1712839339023)]

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！**

**由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

**如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）**
[外链图片转存中...(img-2OWp52T2-1712839339023)]

2401_84181704

关注

10
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
Hadoop简介、安装与环境变量配置_hadoop环境变量

在计算机中，可以通过域名和IP地址的方式识别到相应的服务器，在Hadoop集群的配置中也是如此。但是Hadoop在启动服务时，主节点需要访问所有节点，然后从相应节点中启动守护进程，所以配置主节点到所有节点之间的免密登录（包括主节点到主节点自身之间的免密登录）。大数据的学习和使用都是集群化的，为更好的进行集群设置，请尽量保证相同的操作系统和应用层配置。为方便访问子节点（IP不好记），可以考虑为自己的集群节点配置一个本地的host，这样可以直接用类似域名的方式直接访问集群节点。可以将公钥传输到指定的主机上。
复制链接

扫一扫