oSchnuffel
码龄12年
关注
提问 私信
  • 博客:1,890
    1,890
    总访问量
  • 7
    原创
  • 1,427,969
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2012-08-23
博客简介:

oSchnuffel的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得0次收藏
创作历程
  • 7篇
    2020年
成就勋章
TA的专栏
  • Flink
  • hadoop
    5篇
  • log4j2.xml
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

hadoop项目经验之支持LZO压缩配置

项目经验之支持LZO压缩配置1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/[atguigu@hadoop102 common]$ pwd/opt/module/hadoop-3.1.3/share/hadoop/common[atguigu@had
原创
发布博客 2020.08.16 ·
180 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop项目经验 集群数据均衡

1)节点间数据均衡开启数据均衡命令:start-balancer.sh -threshold 10对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。停止数据均衡命令:stop-balancer.sh注意:于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。2)磁盘间数据均衡(1)生成均衡计划(我们只有一块磁盘,不会生
原创
发布博客 2020.08.16 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hadoop项目经验之HDFS存储多目录

项目经验之HDFS存储多目录1)生产环境服务器磁盘情况2)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题。HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。<property> <name>dfs.datanode.data.
原创
发布博客 2020.08.16 ·
513 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hadoop数据压缩--压缩参数配置

原创
发布博客 2020.07.30 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

配置多队列的容量调度器

默认Yarn的配置下,容量调度器只有一条Default队列。在capacity-scheduler.xml中可以配置多条队列,并降低default队列资源占比:<!-- 指定多队列,增加hive队列 --><property> <name>yarn.scheduler.capacity.root.queues</name><value>default,hive</value> <description>
原创
发布博客 2020.07.26 ·
376 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Map Join

1)使用场景Map Join适用于一张表十分小、一张表很大的场景。2)优点思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办?在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。3)具体办法:采用DistributedCache (1)在Mapper的setup阶段,将文件读取到缓存集合中。 (2)在Driver驱动类中加载缓存。//缓存普通文件到Task运行节点。//缓存普通文件到Task运行节点。
原创
发布博客 2020.07.26 ·
225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

log4j2.xml

<?xml version="1.0" encoding="UTF-8"?><Configuration status="error" strict="true" name="XMLConfig"> <Appenders> <!-- 类型名为Console,名称为必须属性 --> <Appender type="Console" name="STDOUT"> <!-- 布局为P
原创
发布博客 2020.07.18 ·
214 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏