後弛-CSDN博客

原创 Maven工程中隐藏控制台的日志输出

Maven工程中隐藏控制台的日志输出在src/main/resources中添加一个file ：log4j.properties 内容如下log4j.rootCategory=ERROR, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.Pattern

2021-05-28 16:58:37 999

原创离线数仓搭建之ODS层（原始数据层）

离线数仓的ODS层（原始数据层）基于Hive on Spark的搭建1.预先将原始数据（页面埋点的josn数据采集到HDFS上）2.配置Hive on Spark（1）在Hive所在节点部署Spark（2）在hive中创建spark配置文件（3）向HDFS上传Spark纯净版jar包（4）修改hive-site.xml文件3.配置yarn4.使用工具连接hive，在Hive中创建ODS层（1）用户行为数据创建lzo压缩分区表drop table if exists ods_l

2021-05-12 19:09:12 1076 4

原创 hadoop调优之数据倾斜和小文件问题

Hadoop数据倾斜问题maptask将大量的相同的key分配到同于一个分区中导致reducetask接受的数据大小不均衡,降低mapreduce的运行速度Hadoop数据倾斜问题解决方案1)设定自定义分区规则平衡reduce获取的数据2)使用combiner合并可以大大减少数据倾斜,在可能的情况夏,Combine的目的就是聚合并精简数据3)采用Map Join,尽量避免使用Reduce Join4)重新设计key使分区数据比较平衡Hadoop小文件弊端HDFS上每个文件都要在NameNod

2021-04-21 21:32:41 436 1

原创 hadoop中Job提交流程源码详解

Job提交后的源码摘取:在这里插入waitForCompletion()submit();// 1建立连接 connect(); // 1）创建提交Job的代理 new Cluster(getConfiguration()); // （1）判断是本地运行环境还是yarn集群运行环境 initialize(jobTrackAddr, conf); // 2 提交jobsubmitter.submitJobInternal(Job.this, cluster) // 1

2021-04-21 20:12:45 216

原创 Flume的参数调优

1）Source增加Source个（使用Tair Dir Source时可增加FileGroups个数）可以增大Source的读取数据的能力。例如：当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录，同时配置好多个Source 以保证Source有足够的能力获取到新产生的数据。batchSize参数决定Source一次批量运输到Channel的event条数，适当调大这个参数可以提高Source搬运Event到Channel时的性能。2）Channeltype 选择memory时Cha

2021-04-06 20:15:15 200 1