hive sql数据分析
仰望星空的我
仰望星空,脚踏实地。
展开
-
hive sql中的mapjoin参数优化说明
在Hive中,common join是很慢的,如果我们是一张大表关联多张小表,可以使用mapjoin加快速度。mapjoin主要有以下参数:hive.auto.convert.join : 是否自动转换为mapjoinhive.mapjoin.smalltable.filesize : 小表的最大文件大小,默认为25000000,即25Mhive.auto.convert.join....转载 2019-06-04 10:01:31 · 9882 阅读 · 0 评论 -
hive常用sql语句写法
##########group_concat,concat_ws,collect_list,collect_ws函数用法############group_concat替代写法concat_ws('|', collect_set(str))select user,concat_ws(',' , collect_set ( concat ( order_type , '(' , order...转载 2019-05-27 16:40:15 · 2432 阅读 · 0 评论 -
hive 参数优化记录
HDFS非常容易存储大数据文件,如果Hive中存在过多的小文件会给namecode带来巨大的性能压力。同时小文件过多会影响JOB的执行,hadoop会将一个job转换成多个task,即使对于每个小文件也需要一个task去单独处理,task作为一个独立的jvm实例,其开启和停止的开销可能会大大超过实际的任务处理时间。同时我们知道hive输出最终是mr的输出,即reducer(或mapper)的...转载 2019-05-27 16:39:22 · 508 阅读 · 0 评论 -
Hive优化
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分区裁剪hive.limit.optimize.enable=true:优化LIMIT n语句hive.limit.row.max.size=1000000:hive.limit.optimize.limit.file=10:最大文件数1. 本地模式(小任务):需要满足以下条件: 1.j...转载 2019-05-27 16:36:00 · 118 阅读 · 0 评论