自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Maven工程中隐藏控制台的日志输出

Maven工程中隐藏控制台的日志输出在src/main/resources中添加一个file :log4j.properties 内容如下log4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.Pattern

2021-05-28 16:58:37 782

原创 离线数仓搭建之ODS层(原始数据层)

离线数仓的ODS层(原始数据层)基于Hive on Spark的搭建1.预先将原始数据(页面埋点的josn数据采集到HDFS上)2.配置Hive on Spark(1) 在Hive所在节点部署Spark(2) 在hive中创建spark配置文件(3) 向HDFS上传Spark纯净版jar包(4) 修改hive-site.xml文件3.配置yarn4.使用工具连接hive,在Hive中创建ODS层(1)用户行为数据创建lzo压缩分区表drop table if exists ods_l

2021-05-12 19:09:12 915 4

原创 hadoop调优之数据倾斜和小文件问题

Hadoop数据倾斜问题maptask将大量的相同的key分配到同于一个分区中导致reducetask接受的数据大小不均衡,降低mapreduce的运行速度Hadoop数据倾斜问题解决方案1)设定自定义分区规则平衡reduce获取的数据2)使用combiner合并可以大大减少数据倾斜,在可能的情况夏,Combine的目的就是聚合并精简数据3)采用Map Join,尽量避免使用Reduce Join4)重新设计key使分区数据比较平衡Hadoop小文件弊端HDFS上每个文件都要在NameNod

2021-04-21 21:32:41 289 1

原创 hadoop中Job提交流程源码详解

Job提交后的源码摘取:在这里插入waitForCompletion()submit();// 1建立连接 connect(); // 1)创建提交Job的代理 new Cluster(getConfiguration()); // (1)判断是本地运行环境还是yarn集群运行环境 initialize(jobTrackAddr, conf); // 2 提交jobsubmitter.submitJobInternal(Job.this, cluster) // 1

2021-04-21 20:12:45 135

原创 Flume的参数调优

1)Source增加Source个(使用Tair Dir Source时可增加FileGroups个数)可以增大Source的读取数据的能力。例如:当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录,同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。batchSize参数决定Source一次批量运输到Channel的event条数,适当调大这个参数可以提高Source搬运Event到Channel时的性能。2)Channeltype 选择memory时Cha

2021-04-06 20:15:15 106 1

原创 Flume中常用Source和Channel类型的特点

Source选择NetCat Source一个NetCat Source用来监听一个指定端口,并将接收到的数据的每一行转换为一个事件。TailDir Source:断点续传、多目录。Flume1.6以前需要自己自定义Source记录每次读取文件位置,实现断点续传。Exec Source可以实时搜集数据,但是在Flume不运行或者Shell命令出错的情况下,数据将会丢失。Spooling Directory Source监控目录,支持断点续传。Channel选择Kafka Channel

2021-04-06 20:12:05 462 1

原创 Hadoop的常用调优参数

资源相关参数(1)以下参数是在用户自己的MR应用程序中配置就可以生效(配置文件名:mapred-default.xml)1.mapreduce.map.memory.mb 一个MapTask可使用的资源上限(单位:MB),默认为1024。如果MapTask实际使用的资源量超过该值,则会被强制杀死。 2.mapreduce.reduce.memory.mb 一个ReduceTask可使用的资源上限(单位:MB),默认为1024。如果ReduceTask实际使用的资源量超过该值,则会被强制杀死。3

2021-03-18 10:01:38 185

原创 Hadoop中Yarn基本架构

Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。Yarn工作机制(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所需资源提交到HDFS上。(5)程序资源提交完毕后,申请运行mrAppMaster。(6)RM将用户的请求初始化成一

2021-03-16 18:22:13 99 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除