完全分布式部署Hadoop-04

最新推荐文章于 2024-08-06 20:14:16 发布

最新推荐文章于 2024-08-06 20:14:16 发布

分类专栏： hadoop linux

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<105; host++)); do
        #echo $pdir/$fname $user@hadoop$host:$pdir
        echo --------------- hadoop$host ----------------
        rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done

#!/bin/bash
pcount=$#
if((pcount==0));then
        echo no args;
        exit;
fi

echo -------------localhost----------

for((host=102; host<=104; host++)); do
        echo ----------hadoop$host---------
        ssh hadoop$host $@
done


<configuration>

<!-- 指定HDFS中NameNode的地址 -->
	<property>
		<name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
	</property>

	<!-- 指定hadoop运行时产生文件的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.2/data/tmp</value>
	</property>

</configuration>

<configuration>
	<!-- 默认就是3不设置也行 -->
<!-- <property>
		<name>dfs.replication</name>
		<value>3</value>
	</property> -->

	<!-- secondaryNameNode配置到哪台机器 -->
	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:50090</value>
    </property>
</configuration>

<configuration>

<!-- 指定mr运行在yarn上 -->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>


</configuration>

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

完全分布式部署Hadoop-04

hadoop运行环境搭建-01https://blog.csdn.net/kxj19980524/article/details/88934339

首先准备三台机器,按照上面的做法搭建三台.

配置NTP时间服务器https://blog.csdn.net/kxj19980524/article/details/89433153

scp远程操作

我103机器的software下创建了个文件夹,里面创建了两个文件,把这两个文件使用命令拷贝到104机器上.

这个命令可以在同一局域网的任何一台机器上执行都可以成功. -r表示递归传输,kxj表示用户名,@后面的是ip地址,因为配置了hosts文件所以可以拿那个代替,再后面就是要传输的地址,第一段是文件源地址,第二段是要复制到哪儿去.

scp -r kxj@hadoop103:/opt/software/ch kxj@hadoop104:/opt/software/

下面这种方式也可以 scp 要传输的路径 hadoop102/opt/

ssh远程无密配置

ssh可以通过密码直接登录到别的主机上去,但是在集群的配置中,如果一直使用密码的话,很不方便,并且编写一些脚本的时候也不方便,所以就得配置无密登录

还有这个无密登录是单向的,A机器访问B机器设置了无密登录,B访问A如果不设置的话也得需要密码,所以得互相配置才行.

无密登录配置,ssh-keygen -t rsa 然后按三下回车.

就在这个目录下生成了公钥和私钥

这个文件是记录当前主机访问过哪些主机通过ssh

ssh-copy-id hadoop103,把私钥传给相对应的机器,然后使用ssh就不需要密码了.

其实ssh也得对本机进行一下配置,不然有些命令也是不可以使用的.

进入到hadoop103里面authorized_keys这个文件里存放的就是102的公钥.然后自己把103,104无密登录配置一下.

rsync远程同步工具，主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

现在103下面有两个文件夹,104下面有三个,使用命令把103下面的同步到104

rsync -rvl /opt/software/ch/ kxj@hadoop104:/opt/software/ch/

执行完命令可以看到,104下面还是三个文件,它这个命令就是不同的文件不删除,相同的文件替换掉.跟scp用法差不多,但是后面两段不能同时都是远程的.我这个命令是在103上执行的,也就是这命令不能在不相关的机器上执行.

xsync同步脚本编写,为的在集群环境过程中同步一些东西.

使用root用户在/usr/local/bin目录下创建xsync文件,因为放这个目录下在任何地方都可以直接执行这个脚本.

touch xsync chmod 777 xsycn

把下面这段放脚本里,如果用户名和我的不同的话进行适当的修改

执行这个命令就在另外两台相同目录下同步过去了,但是执行命令的时候需要密码,所以把root用户也进行ssh无密配置

执行相同命令操作

右键勾上All Session就可以给现在连接的所有session执行相同的命令了,在下面的窗口输入命令,现在连接的session就都执行了.

写个xcall脚本实现简单执行相同命令操作的功能

chmod 777 xcall

完全分布式搭建

集群部署规划

hdfs的话,NameNode放在102上,SecondaryNameNode因为是辅助NameNode工作的,两个都耗内存特别大,再一个如果NameNode坏了,也可以从SecondayNameNode复制一份数据成为NameNode.NameNode它会把数据都在SecondayNameNode备份一份,所以把他俩放到不同的机器上.

DataNode每台机器上都得有,其实102有了NameNode不应该放DataNode,为了省一台机器就放上吧.

YARN的话,ResourceManager放103上,因为它也是很耗内存的,得跟NameNode,SecondayNameNode,分开放到不通的机器上.

NodeManager每台也都得有,因为有DataNode就得有NodeManager

开始搭建以下操作都是在102节点上设置

指定NameNode在102节点上

配置hdfs

指定secondaryNameNode配置到104节点

配置datanode节点,空格回车什么都不能有,要求特别严格不然集群就会跑不起来.

配置YARN

指定YARN的ResourceManager的地址为103

配置mapreduce

先把mapred-site.xml.template改为mapred-site.xml

指定mapreduce运行在yarn上

以上操作只是在102节点配置好了,现在得在103,104都这么配置

在集群上分发以上所有文件,在102节点上使用之前写好的脚本,把hadoop配置文件分发到103,104

xsync hadoop/ 在下面这个目录下执行命令

同步完后执行下面命令查看是否同步成功

[root@hadoop102 etc]# xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/slaves

启动集群

在102节点上初始化namenode记得切换到kxj用户上.上面使用root是为了修改配置文件方便

bin/hdfs namenode -format

启动hdfs

在102上启动集群,可以看到它直接把namenode,secondarynamenode,datanode都启动了

[kxj@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh

启动YARN,因为YARN是在103节点上配置的所以必须在103启动,否则启动不成功的.如果启动出错的话先把三个节点上的所有节点关闭,namenode之类的都关闭,然后把hadoop目录下的data目录和logs目录删除掉重新启动.

这样就集群搭建启动成功了!!!!

启动集群后,在hdfs上创建文件夹,然后上传一个小文件上传一个大文件

hadoop fs -mkdir /user/kxj/input

hadoop fs -put /opt/software/hadoop-2.7.2.tar.gz /user/kxj/input

可以看到hadoop文件大小超过了128兆块大小,而kxj.txt没有超过.

小于块128大小的文件在每个节点上备份了一份只有一块,而hadoop文件被分为了两块,每块在每个节点都有备份,也就是说当文件大小大于块内存大小时就会把文件进行拆分存储.

可以尝试找一下集群把文件存放到哪儿了

/opt/module/hadoop-2.7.2/data/tmp/dfs/

之前搭建集群的时候,把存放数据路径设置为了hadoop下面的data目录

进入到这个目录后,会发现102节点有data,name,103,104有data,因为102上部署的namenode所以它有两个文件.

/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-401392098-192.168.1.102-1554392438574/current/finalized/subdir0/subdir0

最终在这个目录下可以看到有几个blk文件,它其实就是上传上去的文件,可以看到和id相同.

也可以查看它的内容

但是hadoop的压缩包,让拆成两块了怎么使用它呢?其实可以按文件进行拼接一下

touch tmp cat blk_1073741826 >>tmp cat blk_1073741827 >>tmp tar -zxvf tmp

把26和27按顺序拼接到一个文件中,然后直接解压它就可以得到hadoop压缩包

下载测试 hadoop fs -get /user/kxj/input/kxj.txt ./

HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M

HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传输速率。

如果寻址时间约为10ms，而传输速率为100MB/s，为了使寻址时间仅占传输时间的1%，我们要将块大小设置约为100MB。默认的块大小实际为64MB，但是很多情况下HDFS使用128MB的块设置。

块的大小：10ms*100*100M/s = 100M

块的大小：10ms100100M/s = 100M

11）执行命令不生效，粘贴word中命令时，遇到-和长–没区分开。导致命令失效

集群间数据拷贝多个集群之间进行数据拷贝