Hadoop完全分布式+spark（python(1)，有大数据开发基础学大数据开发

2401_84164595

于 2024-04-08 03:52:42 发布

阅读量662

点赞数 20

分类专栏： 2024年程序员学习文章标签：分布式大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84164595/article/details/137486844

版权

2024年程序员学习专栏收录该内容

99 篇文章 0 订阅

订阅专栏

mkdir software

mkdir servers

修改Ubuntu时区

我选择的是上海的时区可以修改为BeiJing 根据自己需要进行修改即可

sudo timedatectl set-timezone Asia/Shanghai

在Master上：

上传jdk安装包到software，解压到servers

cd ~/software

tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers

mv jdk1.8.0_201 jdk

设置jdk环境变量

vi ~/.bashrc

添加如下代码

export JAVA_HOME=~/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH= ${JAVA_HOME}/lib/dt.jar:$ {JAVA_HOME}/lib/tools.jar:.

export PATH= ${JAVA_HOME}/bin:$ PATH

使得设置生效

source ~/.bashrc

检测是否安装成功

java -version

出现如下版本信息表示jdk安装成功

java version “1.8.0_201”

Java™ SE Runtime Environment (build 1.8.0_201-b09)

Java HotSpot™ 64-Bit Server VM (build 25.201-b09, mixed mode)

Hadoop 安装配置

进入Index of /dist/hadoop/common官网下载Hadoop相应版本

上传到software目录

解压到servers

tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/

重命名文件

mv hadoop-2.7.4/ hadoop

设置环境变量，以后就可以在任意目录下使用Hadoop相关命令

vi ~/.bashrc

添加下面的语句

export HADOOP_HOME=~/servers/hadoop

export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

使设置生效

source ~/.bashrc

hadoop version 查看hadoop的版本

在hadoop的目录中，bin目录存放相关的一些服务脚本，但一般用的不多

在etc中存放的配置文件 hadoop要修改的配置文件都在这里

在include中存放的是和C++相关的头文件

在lib中存放的是库文件

在libexec中放的是和shell相关的文件

在sbin中存放的是hadoop的一些管理脚本，用的相对比较多

在share中存放的是jar包

在src中存放的是源码包

Hadoop****中需要配置7个文件

Hadoop-env.sh 配置Hadoop运行所需的环境变量

Yarn-env.sh 配置yarn运行所需的环境变量

Core-site.xml hadoop核心全局配置文件

Hdfs-site.xml hdfs配置文件，继承core-site.xml配置文件

Mapred-site.xml MapReduce配置文件，继承core-site.xml配置文件

Yarn-site.xml yarn配置文件，继承core-site.xml

Slaves 用来配置DataNode节点。

hadoop_env.sh****中

修改

The java implementation to use.

export JAVA_HOME=/home/spark000/servers/jdk

配置jdk的安装路径

修改core-site.xml

根标签

fs.defaultFS hadoop集群文件系统的类型

hdfs://master:8020 主节点以及端口

hadoop.tmp.dir 临时文件存储目录

/home/spark000/servers/hadoop/tmp

修改hdfs-site.xml

dfs.namenode.secondary.http-address

指定secondarynamenode的主机和端口

master:50090

dfs.replication 指定存储文件副本的数量

2

mapred-site.xml

复制cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

master:10020

mapreduce.jobhistory.webapp.address

master:19888

修改yarn-site.xml

yarn.resourcemanager.hostname设置yarn的主节点

master

yarn.nodemanager.aux-services

mapreduce_shuffle

修改yarn-env.sh

找到

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

在下面添加

export JAVA_HOME=~/servers/jdk

修改slaves

配置从节点

添加 slave1 slave2

远程分发

scp -r ~/servers/hadoop slave1:~/servers

scp -r ~/servers/hadoop slave2:~/servers

scp /home/hadoop/.bashrc slave1:~/

scp /home/hadoop/.bashrc slave2:~/

分发完毕以后在每个节点都要执行

source ~/.bashrc

格式化文件系统

hdfs namenode -format

然后再启动集群

如果先启动集群再格式化有可能丢失namenode，需要删除tmp文件夹下所有内容，然后重新进行格式化操作

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

mg-cHxZRzSQ-1712519552383)]
[外链图片转存中…(img-w5R3zlXr-1712519552384)]
[外链图片转存中…(img-U87j2dou-1712519552384)]
[外链图片转存中…(img-EUyc8atG-1712519552384)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-pF1384cJ-1712519552385)]

关注

20
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Hadoop完全分布式+spark（python(1)，有大数据开发基础学大数据开发

外链图片转存中…(img-w5R3zlXr-1712519552384)][外链图片转存中…(img-U87j2dou-1712519552384)][外链图片转存中…(img-EUyc8atG-1712519552384)]
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。