
hive企业级调优
qq_43193797
github:https://github.com/yanjie666
展开
-
Hive经典面试SQL题
select id, mid_date, price from ( select tmp.*, t.*, date_add(day, pos) as mid_date from ( select id, day, if(day2 is not null,day2,day) day2, price from ( select id, day, lead(date_su.原创 2020-06-04 10:05:24 · 626 阅读 · 0 评论 -
验证flume采集日志延迟
select data_date ,hour ,count(*)from (select data_date ,from_unixtime(floor(rtime/1000),'yyyyMMddHH') as hourfrom tmp.table_tmpwhere data_date >= 2019062800and data_...原创 2019-07-17 13:15:11 · 660 阅读 · 0 评论 -
Hive按照某个维度对数据进行去重的俩中方式
一、使用group byeg:selectreq_id ,max(rtime) as click_rtime from tmp where data_date >= %(data_start_date)s and data_date <= %(data_date_cutoff)sgroup by req_id二、使用窗口函数...原创 2019-07-31 17:46:51 · 1626 阅读 · 0 评论 -
任务运行失败,azkaban仍然显示success的问题解决
在shell脚本中加上判断语句if [[ $? -ne 0 ]];then exit 255fi原创 2019-06-18 10:11:49 · 2146 阅读 · 2 评论 -
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;默认值:strict 描述:strict是避免全分区字段是动态...转载 2019-06-16 15:04:59 · 161 阅读 · 0 评论 -
hive 参数调优
转载:https://blog.csdn.net/renzhixin1314/article/details/70496325Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))set mapreduce.input.file...转载 2019-06-15 17:22:44 · 247 阅读 · 0 评论 -
Hive的静态分区和动态分区
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl/p/6831884.html转载请注明出处虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解.举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范...转载 2019-06-15 16:44:59 · 476 阅读 · 0 评论 -
对现有Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。- 对现存hive表的分区首先,新建一张我们需要的分区以后的表cre...原创 2019-06-15 16:34:55 · 536 阅读 · 0 评论 -
Hive之企业级参数优化
3. 使用VectorizationVectorized查询执行会提高操作性能,例如scans、aggregations、filters和joins,通过一次执行1024行提高性能。该属性在hive 0.13版本引入,该属性能够提高查询执行的时间。通过设置以下两个参数:[code language=”SQL”]set hive.vectorized.execution.enab...原创 2019-06-15 16:31:42 · 225 阅读 · 0 评论 -
HIVE 语句执行 中报错:Java heap space
1、报错信息ask with the most failures(4):-----Task ID:task_1472873234260_9322_m_000004URL:http://hadoop-namenode1:8088/taskdetails.jsp?jobid=job_1472873234260_9322&tipid=task_1472873234260_...转载 2019-06-03 13:55:19 · 2657 阅读 · 0 评论 -
Hive删除分区语法
ALTER TABLE table_name DROP partition_spec, partition_spec,...用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例:ALTER TABLE test_table DROP PARTITION (dt='2016-08-08', hour='10');...原创 2019-06-06 13:43:46 · 56310 阅读 · 0 评论 -
hive企业级调优之参数hive.exec.parallel.thread.number说明
前面提到了hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行.而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可以运行的job的最大值,该参数默认为8.此时最大可以同时运行8个job.我找了个j...转载 2019-05-31 17:40:11 · 4422 阅读 · 0 评论 -
Hive企业级调优之hive中的set hive.exec.parallel=true 参数说明
hive.exec.parallel参数控制在同一个sql中的不同的job是否可以同时运行,默认为false.下面是对于该参数的测试过程:测试sql:select r1.afrom (select t.a from sunwg_10 t join sunwg_10000000 s on t.a=s.b) r1 join (select s.b from sunwg_100000 t jo...转载 2019-05-31 17:37:33 · 2969 阅读 · 0 评论