（04）数据采集模块

最新推荐文章于 2024-10-06 08:38:14 发布

大数据开发工程师-宋权

最新推荐文章于 2024-10-06 08:38:14 发布

阅读量239

点赞数

分类专栏：离线数仓文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/song_quan_/article/details/118177459

版权

离线数仓专栏收录该内容

59 篇文章 8 订阅

订阅专栏

1.集群所有进程查看脚本

1 ）在 /home/atguigu/bin 目录下创建脚本 xcall.sh

[atguigu@hadoop102 bin]$ vim xcall.sh

2 ）在脚本中编写如下内容

#! /bin/bash

for i in hadoop102 hadoop103 hadoop104

do

echo --------- $i ----------

ssh $i "$*"

done

3 ）修改脚本执行权限

[atguigu@hadoop102 bin]$ chmod 777 xcall.sh

4 ）启动脚本

[atguigu@hadoop102 bin]$ xcall.sh jps

2.Hadoop安装（略）

3.项目经验之 HDFS 存储多目录

1 ）生产环境服务器磁盘情况

2）在 hdfs-site.xml 文件中配置多目录，注意新挂载磁盘的访问权限问题。

HDFS 的 DataNode 节点保存数据的路径由 dfs.datanode.data.dir 参数决定，其默认值为

file://${hadoop.tmp.dir}/dfs/data ，若服务器有多个磁盘，必须对该参数进行修改。如服务器磁

盘如上图所示，则该参数应修改为如下的值。

注意：每台服务器挂载的磁盘不一样，所以每个节点的多目录配置可以不一致。单独配

置即可。

2.集群数据均衡

1 ）节点间数据均衡

开启数据均衡命令：

start-balancer.sh -threshold 10

对于参数 10 ，代表的是集群中各个节点的磁盘空间利用率相差不超过 10% ，可根据实

际情况进行调整。

停止数据均衡命令：

stop-balancer.sh

2）磁盘间数据均衡

（ 1 ）生成均衡计划（ 我们只有一块磁盘，不会生成计划 ）

hdfs diskbalancer -plan hadoop103

（ 2 ）执行均衡计划

hdfs diskbalancer -execute hadoop103.plan.json

（ 3 ）查看当前均衡任务的执行情况

hdfs diskbalancer -query hadoop103

（ 4 ）取消均衡任务

hdfs diskbalancer -cancel hadoop103.plan.json

3 项目经验之支持 LZO 压缩配置

1 ） hadoop 本身并不支持 lzo 压缩，故需要使用 twitter 提供的 hadoop-lzo 开源组件。 hadoop

lzo 需依赖 hadoop 和 lzo 进行编译，编译步骤如下。

2 ）将编译好后的 hadoop-lzo-0.4.20.jar 放入 hadoop-3.1.3/share/hadoop/common/

[atguigu@hadoop102 common]$ pwd

/opt/module/hadoop-3.1.3/share/hadoop/common

[atguigu@hadoop102 common]$ ls

hadoop-lzo-0.4.20.jar

3 ）同步 hadoop-lzo-0.4.20.jar 到 hadoop103 、 hadoop104

[atguigu@hadoop102 common]$ xsync hadoop-lzo-0.4.20.jar

4） core-site.xml 增加配置支持 LZO 压缩

io.compression.codecs

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec,

com.hadoop.compression.lzo.LzoCodec,

com.hadoop.compression.lzo.LzopCodec

io.compression.codec.lzo.class

com.hadoop.compression.lzo.LzoCodec

5 ）同步 core-site.xml 到 hadoop103 、 hadoop104

[atguigu@hadoop102 hadoop]$ xsync core-site.xml

6 ）启动及查看集群

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

大数据开发工程师-宋权

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据开发工程师-宋权 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。