
hadoop
oSchnuffel
这个作者很懒,什么都没留下…
展开
-
hadoop项目经验之支持LZO压缩配置
项目经验之支持LZO压缩配置 1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/ [atguigu@hadoop102 common]$ pwd /opt/module/hadoop-3.1.3/share/hadoop/common [atguigu@had原创 2020-08-16 12:44:50 · 181 阅读 · 0 评论 -
hadoop项目经验 集群数据均衡
1)节点间数据均衡 开启数据均衡命令: start-balancer.sh -threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: stop-balancer.sh 注意:于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。 2)磁盘间数据均衡 (1)生成均衡计划(我们只有一块磁盘,不会生原创 2020-08-16 12:34:47 · 256 阅读 · 0 评论 -
hadoop项目经验之HDFS存储多目录
项目经验之HDFS存储多目录 1)生产环境服务器磁盘情况 2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。 HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。 <property> <name>dfs.datanode.data.原创 2020-08-16 12:32:37 · 518 阅读 · 0 评论 -
Hadoop数据压缩--压缩参数配置
原创 2020-07-30 10:39:46 · 130 阅读 · 0 评论 -
Map Join
1)使用场景 Map Join适用于一张表十分小、一张表很大的场景。 2)优点 思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办? 在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。 3)具体办法:采用DistributedCache (1)在Mapper的setup阶段,将文件读取到缓存集合中。 (2)在Driver驱动类中加载缓存。 //缓存普通文件到Task运行节点。 //缓存普通文件到Task运行节点。原创 2020-07-26 14:32:31 · 225 阅读 · 0 评论