2021年04月_永不落后于人

原创 Hive COALESCE返回第一个不为NULL的值

coalesce(参数1,参数2…)coalesce()函数可以传不定数量的参数，返回这些参数中第一个不为null的值。示例SELECT COALESCE(tmp_login.user_id,tmp_cart.user_id,tmp_order.user_id) user_idFROM tmp_loginFULL OUTER JOIN tmp_cartON tmp_login.user_id = tmp_cart.user_idFULL OUTER JOI

2021-04-22 09:50:44 3025

原创 Hive日期处理函数的使用

date_format作用格式化日期。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd');date_add作用对日期进行加（减）操作。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd') dt1, DATE_ADD('2021-04-21',1) dt2, DATE_ADD('2021-04-21', -1) dt3;...

2021-04-21 16:51:20 375

原创 Hive nvl函数的使用

格式nvl(表达式1,表达式2)作用如果表达式1的值为空，返回表达式2的值；如果表达式1的值不为空，返回表达式1的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。示例CREATE TABLE stud2(id int,name string,gender string);INSERT INTO stud2 VALUES(1001,'zs','男'),(1002,'ls','女'),(1003,'ww',NULL);SELECT

2021-04-21 16:40:26 2134

原创 Hive collect_set函数的使用

作用将同一组中不同行的数据聚合为一个集合（无重复数据），如果想要保留重复数据，可以使用collect_list。示例-- 建表create table stud (name string, area string, course string, score int);-- 插入数据insert into table stud values('zhang3','bj','math',88),('li4','bj','math',99),('wang5','sh','chinese',92),('z

2021-04-21 16:24:15 2108

原创 Map和Reduce过程中的数据压缩方式的选择

可以选择数据压缩的位置map之前、map之后reduce之前、reduce之后。压缩方式map之前的数据，我们要考虑切片，可以考虑bzip2和lzo压缩，虽然lzo压缩需要额外创建索引文件，但是lzo压缩的效率和压缩比十分优秀，我们一般都会选择lzo压缩方式。map之后reduce之前的数据，我们要考虑数据的传输效率，可以使用snappy和lzo压缩。reduce之后的数据，我们需要根据需求来选择。比如保存到HDFS，我们考虑lzo。...

2021-04-07 11:41:26 259

原创 Flume自定义拦截器

需求定义两个拦截器，一个用于过滤不合法数据，一个用于区分日志类型。ETL拦截器主要用于，过滤时间戳不合法和Json数据不完整的日志。日志类型区分拦截器主要用于，将启动日志和事件日志区分开来，方便发往Kafka的不同Topic。导入依赖 <dependencies> <dependency> <groupId>org.apache.flume</groupId> <artifac

2021-04-07 09:27:05 1525

原创 Kafka压力测试与机器数量计算

说明用Kafka官方自带的脚本，对Kafka进行压测。Kafka压测时，可以查看到哪个地方出现了瓶颈（CPU，内存，网络IO）。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer压力测试$KAFKA_HOME/bin/kafka-producer-perf-test.sh -

2021-04-06 16:14:41 242

原创 Hadoop运行job默认配置参数以及合理配置参数计算

默认配置参数一个NodeManager的默认运行内存：8G一个job的默认运行内存：8G一个maptask的默认运行内存：1G一个reducetask的默认运行内存：1G如何计算合理的配置参数如果输入端有100G的数据，那么maptask的运行内存设置为多少？一个job的运行内存设置为多少？一个个切片

2021-04-05 09:42:34 623

原创 Hadoop集群读写性能测试以及MR测试

测试HDFS写性能在集群节点上执行如下命令：[hadoop@hadoop01 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数说明：jar包名称

2021-04-03 22:25:02 1027

原创 Spark任务提交流程

提交一个Spark应用程序，首先通过Client向ResourceManager请求启动一个Application，同时检查是否有足够的资源满足Application的需求，如果资源条件满足，则准备ApplicationMaster的启动上下文，交给ResourceManager，并循环监控Application状态。 &nbs.

2021-04-03 14:41:56 222 1

原创 Spark yarn模式运行机制

yarn-client模式在YARN Client模式下，Driver在任务提交的本地机器上运行，Driver启动后会和ResourceManager通讯申请启动ApplicationMaster，随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster的功能相当于一个ExecutorLauche

2021-04-03 13:26:58 206

原创 Spark中Driver和Executor的作用

Driver Spark的驱动器节点，负责运行Spark程序中的main方法，执行实际的代码。Driver在Spark作业时主要负责：将用户程序转化为作业（job）。负责Executor之间的任务（task）调度。监控Executor的执行状态。通过UI展示运行情况。Executor Executor是S

2021-04-03 13:13:15 4607

FlatTiger的博客