hive
文章平均质量分 77
Samooyou
这个作者很懒,什么都没留下…
展开
-
Hive与MapReduce小文件合并问题
参数设置:因为设置上面四个参数,看上去规定了map结束,MR结束合并文件,如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件,没有问题。但是忽略了一个问题,你重新启动一个mr合并文件,这个mr是不是需要进行文件split,你这个参数搞小了,那就会产生很多task,很多map,比如很多小文件就是一个map,最终还是产生很多小文件(因为合并小文件的mr只有map)。所以必须要配合split参数才有用。参考:大多数开发人员都弄错的Hive与MapRedu原创 2022-06-09 10:16:02 · 390 阅读 · 0 评论 -
orc表导致hiveserver2内存暴涨问题分析
一、问题描述昨天上午,钉钉上突然出现一堆hive相关的查询错误的报警。第一感觉,在yarn上查看任务日志,查询了一通,结果没看到有任务相关的报错。于是乎,立马查看hiveserver2的相关log,看到如下之类的信息:大概的意思是由于gc,导致hiveserver2整个服务停顿,stop the whole word!整整15秒不可用,对于软件来说,是个毁灭性的灾难!为什么会突然飙升呢?又多方面的查看hiveserver2的连接数监控hive的连接数已经打满了,log里面也有thri原创 2021-12-21 14:38:38 · 1682 阅读 · 0 评论 -
Hive--实现随机抽数
1.背景在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:2.随机方法1.数据块抽样(tablesample()函数)a.tablesample(n percent) 根据hive表数据的大小按比例抽取数据,并保存到新的hive表中。如:抽取原hive表原创 2022-05-27 16:09:27 · 4762 阅读 · 0 评论 -
Hive--临时表的三种方式
一、临时数据方案1、with as1.1 使用demo witht1as( select imei ,src_pkg ,src_type ,app_version_name frombi_quickgame.dw_qgcrpk_boot_di whereday='${etl_date}' groupby ...原创 2022-05-27 16:08:11 · 10952 阅读 · 0 评论 -
Hive--参数调优
mapred.max.split.size=256000000; // 决定每个map处理的最大的文件大小,单位为Bmapred.min.split.size.per.node=1; // 节点中可以处理的最小的文件大小mapred.min.split.size.per.rack=1; // 机架中可以处理的最小的文件大小mapred.reduce.tasks=10; -- 设置reduce的数量hive.exec.reducers.bytes.per.reducer=1073741824 // 每原创 2022-05-27 16:05:17 · 531 阅读 · 0 评论 -
Hive-谓词下推
一、背景谓词,是指用来描述或判断客体性质、特征或客体之间关系的词项。在SQL中即返回值为布尔值的函数。谓词下推,在Hive中叫Predicate Pushdown,含义是指在不影响结果的前提下,尽量将过滤条件提前执行,使得最后参与join的表的数据量更小。谓词下推后,过滤条件将在map端提前执行,减少map端输出,降低了数据传输IO,节约资源,提升性能。在Hive中通过配置hive.optimize.ppd参数为true,开启谓词下推,默认为开启状态。二、表的分类首先定义一下参与join的表原创 2022-05-27 16:02:54 · 486 阅读 · 0 评论 -
Hive-锁导致的异常
异常表现:任一直没执行,具体报错如下:Unbale to acquire IMPLICIT,SHARED lock appstore after 100 attempts.Error in acquireLocks...简单理解为获取100次,依旧无法获取到共享锁。2.Hive锁的类型与关系hive目前主要有两种锁,SHARED(共享锁S)和 Exclusive(排他锁X)。其中只触发S锁的操作可以并发执行,只要有一个操作对标或者分区触发了X锁,则该表或者分区不能并发的执行作...原创 2022-05-27 15:57:37 · 2116 阅读 · 0 评论 -
HIVE-异常问题汇总
sentry不影响Hive使用参数hive.metastore.transactional.event.listenershive.metastore.event.listeners原创 2022-05-23 15:20:22 · 299 阅读 · 0 评论 -
Hive合并小文件详解(参数介绍)
一、MR输出时合并小文件参数设置 含义set hive.merge.mapfiles=true; 默认值ture,在Map-only的任务结束时合并小文件set hive.merge.mapredfiles=true; 默认值false,在Map-Reduce的任务结束时合并小文件set hive.merge.size.per.task=256000000; 默认值256M,set hive.merge.smallfiles.avgsize=16000000; 默认...原创 2022-05-17 11:33:13 · 7612 阅读 · 0 评论 -
Hive参数调优系列1:控制map个数与性能调优
本系列⼏章系统地介绍了开发中Hive常见的⽤户配置属性(有时称为参数、变量或选项),并说明了哪些版本引⼊了哪些属性,常见有哪些属性的使⽤,哪些属性可以进⾏Hive调优,以及如何使⽤的问题。以及⽇常Hive开发中如何进⾏性能调优。1.Hive有哪些参数,如何查看这些参数1. Hive⾃带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java⽂件以获取Hive版本中可⽤的配置属性的完整列表。具体可以下载hive.src通过idea查看。全部属性有上千个吧,...原创 2022-05-17 11:28:41 · 2426 阅读 · 0 评论