- 博客(7)
- 收藏
- 关注
原创 hadoop项目经验之支持LZO压缩配置
项目经验之支持LZO压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/ [atguigu@hadoop102 common]$ pwd /opt/module/hadoop-3.1.3/share/hadoop/common [atguigu@had
2020-08-16 12:44:50
150
原创 hadoop项目经验 集群数据均衡
1)节点间数据均衡 开启数据均衡命令: start-balancer.sh -threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: stop-balancer.sh 注意:于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。 2)磁盘间数据均衡 (1)生成均衡计划(我们只有一块磁盘,不会生
2020-08-16 12:34:47
215
原创 hadoop项目经验之HDFS存储多目录
项目经验之HDFS存储多目录 1)生产环境服务器磁盘情况 2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。 HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。 <property> <name>dfs.datanode.data.
2020-08-16 12:32:37
454
原创 配置多队列的容量调度器
默认Yarn的配置下,容量调度器只有一条Default队列。在capacity-scheduler.xml中可以配置多条队列,并降低default队列资源占比: <!-- 指定多队列,增加hive队列 --> <property> <name>yarn.scheduler.capacity.root.queues</name> <value>default,hive</value> <description>
2020-07-26 17:39:45
338
原创 Map Join
1)使用场景 Map Join适用于一张表十分小、一张表很大的场景。 2)优点 思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。 3)具体办法:采用DistributedCache (1)在Mapper的setup阶段,将文件读取到缓存集合中。 (2)在Driver驱动类中加载缓存。 //缓存普通文件到Task运行节点。 //缓存普通文件到Task运行节点。
2020-07-26 14:32:31
192
原创 log4j2.xml
<?xml version="1.0" encoding="UTF-8"?> <Configuration status="error" strict="true" name="XMLConfig"> <Appenders> <!-- 类型名为Console,名称为必须属性 --> <Appender type="Console" name="STDOUT"> <!-- 布局为P
2020-07-18 21:36:06
171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人