Hadoop完全分布式+spark(python,2024年最新含爱奇艺,2024年最新小米,2024年最新腾讯,2024年最新阿里

scp ~/.ssh/authorized_keys slave2:~/.ssh

与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码,这样ssh免密功能就配置好啦,可以在master上尝试   s s h s l a v e 1 命令 和   ssh slave1 命令 和   sshslave1命令   ssh slave2 命令进行验证是否为免密登录。
做完以上操作后系统的准备工作就做好了,但实际在操作主机时是不会真的在主机上操作,而通常是通过一个远程连接软件来操作主机的,那么我们就来使用XShell软件实现远程登录。

在各个节点的/home/用户名/目录下创建两个文件夹

mkdir software

mkdir servers

修改Ubuntu时区

我选择的是上海的时区 可以修改为BeiJing  根据自己需要进行修改即可

sudo timedatectl set-timezone Asia/Shanghai

在Master上:

上传jdk安装包到software,解压到servers

cd ~/software

tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers

mv  jdk1.8.0_201 jdk

设置jdk环境变量

vi ~/.bashrc

添加如下代码

export JAVA_HOME=~/servers/jdk

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH= J A V A H O M E / l i b / d t . j a r : {JAVA_HOME}/lib/dt.jar: JAVAHOME/lib/dt.jar:{JAVA_HOME}/lib/tools.jar:.

export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH

使得设置生效

source ~/.bashrc

检测是否安装成功

java -version

出现如下版本信息表示jdk安装成功

java version “1.8.0_201”

Java™ SE Runtime Environment (build 1.8.0_201-b09)

Java HotSpot™ 64-Bit Server VM (build 25.201-b09, mixed mode)

Hadoop 安装配置

进入Index of /dist/hadoop/common官网下载Hadoop相应版本

上传到software目录

解压到servers

tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/

重命名文件

mv hadoop-2.7.4/ hadoop

设置环境变量,以后就可以在任意目录下使用Hadoop相关命令

vi ~/.bashrc

添加下面的语句

export HADOOP_HOME=~/servers/hadoop

export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

使设置生效

source ~/.bashrc

hadoop version 查看hadoop的版本

在hadoop的目录中,bin目录存放相关的一些服务脚本,但一般用的不多

在etc中存放的配置文件 hadoop要修改的配置文件都在这里

在include中存放的是和C++相关的头文件

在lib中存放的是库文件

在libexec中放的是和shell相关的文件

在sbin中存放的是hadoop的一些管理脚本,用的相对比较多

在share中存放的是jar包

在src中存放的是源码包

Hadoop****中需要配置7个文件

Hadoop-env.sh 配置Hadoop运行所需的环境变量

Yarn-env.sh 配置yarn运行所需的环境变量

Core-site.xml hadoop核心全局配置文件

Hdfs-site.xml hdfs配置文件,继承core-site.xml配置文件

Mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件

Yarn-site.xml yarn配置文件,继承core-site.xml

Slaves 用来配置DataNode节点。

hadoop_env.sh****中

修改

The java implementation to use.

export JAVA_HOME=/home/spark000/servers/jdk

配置jdk的安装路径

修改core-site.xml

   根标签

fs.defaultFS   hadoop集群文件系统的类型

hdfs://master:8020  主节点以及端口

 

hadoop.tmp.dir   临时文件存储目录

/home/spark000/servers/hadoop/tmp

修改hdfs-site.xml

dfs.namenode.secondary.http-address

指定secondarynamenode的主机和端口

master:50090

dfs.replication 指定存储文件副本的数量

2

mapred-site.xml

复制cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

master:10020

mapreduce.jobhistory.webapp.address

master:19888

修改yarn-site.xml

yarn.resourcemanager.hostname设置yarn的主节点

master

yarn.nodemanager.aux-services

mapreduce_shuffle

修改yarn-env.sh

找到

# export JAVA_HOME=/home/y/libexec/jdk1.6.0/

在下面添加

export JAVA_HOME=~/servers/jdk

修改slaves

配置从节点

添加 slave1 slave2

远程分发

scp -r ~/servers/hadoop slave1:~/servers

scp -r ~/servers/hadoop slave2:~/servers

scp /home/hadoop/.bashrc slave1:~/

scp /home/hadoop/.bashrc slave2:~/

分发完毕以后在每个节点都要执行

source ~/.bashrc

格式化文件系统

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

mg-aQCdRIpb-1712519616015)]
[外链图片转存中…(img-aO2o4Kd7-1712519616015)]
[外链图片转存中…(img-jAeTkHUf-1712519616015)]
[外链图片转存中…(img-XEKwwbtY-1712519616015)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-eavTyssS-1712519616016)]

  • 25
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop、Hive、Spark和Zookeeper都是大数据技术栈中重要的组件。 Hadoop是一个由Apache开源的分布式文件系统和计算框架。它能够将大规模的数据分散存储在千台、万台、甚至更多的服务器上,并且实现数据的高效处理和分析。 Hive是在Hadoop之上构建的数据仓库基础设施。它提供了一个类似于SQL的查询语言,可以让用户通过简单的查询语句对存储在Hadoop集群中的数据进行操作和分析。Hive可以将结构化和半结构化的数据映射为一张表格,并提供了诸如过滤、连接、聚合等功能。 Spark是一个快速的、通用的集群计算系统。它提供了分布式数据处理的能力,采用了内存计算方式,相比于Hadoop MapReduce带来了更高的性能和更广泛的应用场景。Spark支持多种编程语言和丰富的组件库,如Spark SQL、Spark Streaming等,可以用于数据处理、机器学习、图计算等任务。 Zookeeper是一个开源的分布式协调服务。它实现了一个分布式的、高可用的、高性能的协调系统,可以提供诸如统一命名服务、配置管理、分布式锁等功能。Zookeeper能够帮助大数据系统中的不同组件进行协调和通信,确保分布式系统的一致性和可靠性。 综上所述,Hadoop用于分布式存储和计算,Hive用于数据仓库和查询分析,Spark用于高性能的集群计算,而Zookeeper用于分布式协调和通信。这四个技术在大数据领域中扮演着不可替代的角色,相辅相成,共同构建了现代大数据生态系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值