- 博客(12)
- 收藏
- 关注
原创 Hive COALESCE返回第一个不为NULL的值
coalesce(参数1,参数2…)coalesce()函数可以传不定数量的参数,返回这些参数中第一个不为null的值。示例SELECT COALESCE(tmp_login.user_id,tmp_cart.user_id,tmp_order.user_id) user_idFROM tmp_loginFULL OUTER JOIN tmp_cartON tmp_login.user_id = tmp_cart.user_idFULL OUTER JOI
2021-04-22 09:50:44 3025
原创 Hive日期处理函数的使用
date_format作用格式化日期。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd');date_add作用对日期进行加(减)操作。SELECT DATE_FORMAT('2021-04-21 16:42:00','yyyy-MM-dd') dt1, DATE_ADD('2021-04-21',1) dt2, DATE_ADD('2021-04-21', -1) dt3;...
2021-04-21 16:51:20 375
原创 Hive nvl函数的使用
格式nvl(表达式1,表达式2)作用如果表达式1的值为空,返回表达式2的值;如果表达式1的值不为空,返回表达式1的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。示例CREATE TABLE stud2(id int,name string,gender string);INSERT INTO stud2 VALUES(1001,'zs','男'),(1002,'ls','女'),(1003,'ww',NULL);SELECT
2021-04-21 16:40:26 2134
原创 Hive collect_set函数的使用
作用将同一组中不同行的数据聚合为一个集合(无重复数据),如果想要保留重复数据,可以使用collect_list。示例-- 建表create table stud (name string, area string, course string, score int);-- 插入数据insert into table stud values('zhang3','bj','math',88),('li4','bj','math',99),('wang5','sh','chinese',92),('z
2021-04-21 16:24:15 2108
原创 Map和Reduce过程中的数据压缩方式的选择
可以选择数据压缩的位置map之前、map之后reduce之前、reduce之后。压缩方式map之前的数据,我们要考虑切片,可以考虑bzip2和lzo压缩,虽然lzo压缩需要额外创建索引文件,但是lzo压缩的效率和压缩比十分优秀,我们一般都会选择lzo压缩方式。map之后reduce之前的数据,我们要考虑数据的传输效率,可以使用snappy和lzo压缩。reduce之后的数据,我们需要根据需求来选择。比如保存到HDFS,我们考虑lzo。...
2021-04-07 11:41:26 259
原创 Flume自定义拦截器
需求定义两个拦截器,一个用于过滤不合法数据,一个用于区分日志类型。ETL拦截器主要用于,过滤时间戳不合法和Json数据不完整的日志。日志类型区分拦截器主要用于,将启动日志和事件日志区分开来,方便发往Kafka的不同Topic。导入依赖 <dependencies> <dependency> <groupId>org.apache.flume</groupId> <artifac
2021-04-07 09:27:05 1525
原创 Kafka压力测试与机器数量计算
说明 用Kafka官方自带的脚本,对Kafka进行压测。Kafka压测时,可以查看到哪个地方出现了瓶颈(CPU,内存,网络IO)。一般都是网络IO达到瓶颈。kafka-consumer-perf-test.shkafka-producer-perf-test.shKafka Producer压力测试$KAFKA_HOME/bin/kafka-producer-perf-test.sh -
2021-04-06 16:14:41 242
原创 Hadoop运行job默认配置参数以及合理配置参数计算
默认配置参数一个NodeManager的默认运行内存:8G一个job的默认运行内存:8G一个maptask的默认运行内存:1G一个reducetask的默认运行内存:1G如何计算合理的配置参数 如果输入端有100G的数据,那么maptask的运行内存设置为多少?一个job的运行内存设置为多少? 一个个切片
2021-04-05 09:42:34 623
原创 Hadoop集群读写性能测试以及MR测试
测试HDFS写性能 在集群节点上执行如下命令:[hadoop@hadoop01 mapreduce]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB参数说明:jar包名称
2021-04-03 22:25:02 1027
原创 Spark任务提交流程
提交一个Spark应用程序,首先通过Client向ResourceManager请求启动一个Application,同时检查是否有足够的资源满足Application的需求,如果资源条件满足,则准备ApplicationMaster的启动上下文,交给ResourceManager,并循环监控Application状态。 &nbs.
2021-04-03 14:41:56 222 1
原创 Spark yarn模式运行机制
yarn-client模式 在YARN Client模式下,Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当于一个ExecutorLauche
2021-04-03 13:26:58 206
原创 Spark中Driver和Executor的作用
Driver Spark的驱动器节点,负责运行Spark程序中的main方法,执行实际的代码。Driver在Spark作业时主要负责:将用户程序转化为作业(job)。负责Executor之间的任务(task)调度。监控Executor的执行状态。通过UI展示运行情况。Executor Executor是S
2021-04-03 13:13:15 4607
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人