Hive
炼数成器
bystudying com
展开
-
Hive数据倾斜
hive join 数据倾斜 解决办法原创 2021-11-24 17:34:45 · 2416 阅读 · 1 评论 -
Hive开启CTE物化
CTE(Common Table Expression)公共表表达式简称 CTE,处理方式类似于视图扩展,是Hive三种保存临时结果的方法之一(另外两种是临时表和物化视图), Hive早在 0.13.0 的时候便加入了这个功能。原创 2022-09-05 18:45:24 · 3295 阅读 · 0 评论 -
Hive Unknown rows affected
Hive Unknown rows affected原创 2022-09-05 22:45:00 · 1987 阅读 · 0 评论 -
Hive 3种map join
3种map join原创 2022-09-02 18:08:02 · 2275 阅读 · 0 评论 -
hive 写入分区oom
1.内存优化列式存储的文件在写入文件之前都会将一定数量的数据缓存在内存中,由于hive每个动态分区目录都会打开一个文件写入器(file writer),所以当存在很多分区的时候,有可能会导致mapper OOM,所以需要增加内存。或者限制每次任务的分区数。另外缓冲区(file buffer)的大小最好跟block一样大,set Parquetbuffer size=blocksize2.开启hive.optimize.sort.dynamic.partition通过explain 发现 动态分区跟sq原创 2022-03-14 20:11:38 · 4562 阅读 · 0 评论 -
通过YARN Label实现大数据集群资源管理与隔离
1.Hive有哪些参数,如何查看这些参数 Hive自带的配置属性列表封装在HiveConfJava类中,因此请参阅该HiveConf.java文件以获取Hive版本中可用的配置属性的完整列表。具体可以下载hive.src通过eclipse查看。全部属性有上千个吧,一般Hive的自带属性都是以hive.开头的,每个属性且自带详细的描述信息,其次Hive官网也有,但是属性不是特别全。Hive官方参数网址Hive除了自身带了一些配置属性,因为其底层使用的是h...原创 2021-12-31 22:11:05 · 181 阅读 · 0 评论 -
HIVE 配置大全参考
HIVE 配置文件详解hive的配置:hive.aux.jars.path:当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,无默认值hive.partition.pruning:在编译器发现一个query语句中使用分区表然而未提供任何分区谓词做查询时,抛出一个错误从而保护分区表,默认是nonstrict(待读源码后细化,网上资料极少)- hive.map.aggr:map端聚合是否开启,默认开启hive.join.emit.interval:在发出join结果之前对join原创 2021-12-15 23:21:37 · 1963 阅读 · 0 评论 -
hive on spark优化
spark配置参数spark.executor.cores表示每个Executor可利用的CPU核心数。其值不宜设定过大,因为Hive的底层以HDFS存储,而HDFS有时对高并发写入处理不太好,容易造成race condition。设定在3~6之间比较合理。spark.executor.memory/spark.yarn.executor.memoryOverhead这两个参数分别表示每个Executor可利用的堆内内存量和堆外内存量。堆内内存越大,Executor就能缓存更多的数据,在做诸如map原创 2021-11-20 13:50:40 · 2994 阅读 · 0 评论 -
hive hue druid 中的夏令时
hivehive> SELECT unix_timestamp("2021-03-14 01:32:24"),unix_timestamp("2021-03-14 03:32:24"),(unix_timestamp("2021-03-14 01:32:24")-unix_timestamp("2021-03-14 03:32:24"))/3600;OK1615714344 1615717944 -1.0HueSELECT unix_timestamp("2021-03-14 01:32原创 2021-06-02 13:16:19 · 1677 阅读 · 1 评论 -
hive null parse
sqoop--null-string '' \--null-non-string '' \hivealter table ... set serdeproperties ('serialization.null.format' = "");orTBLPROPERTIES('serialization.null.format' = "") ;原创 2021-05-20 14:39:01 · 928 阅读 · 0 评论 -
Spark hive 数据倾斜的优化
数据倾斜产生的原因数据倾斜就是分布式计算过程中,数据分配不均匀,导致最终任务花费的时间很长或失败。不管是hive还是spark, 数据倾斜基本都发生在执行join count distinct、group by等会触发Shuffle操作时,如果key值分布过于集中,相同key的值就会被拉到一个节点上,容易发生单点计算问题,导致数据倾斜。数据倾斜导致的问题:SparkDriver和Exe...原创 2019-12-31 13:33:00 · 1199 阅读 · 0 评论 -
Hive表jion数据倾斜问题解决办法
1) 过滤掉脏数据:如果大key是无意义的脏数据,直接过滤掉。本场景中大key无实际意义,为非常脏数据,直接过滤掉。2)数据预处理:数据做一下预处理,尽量保证join的时候,同一个key对应的记录不要有太多。3) 增加reduce个数:如果数据中出现了多个大key,增加reduce个数,可以让这些大key落到同一个reduce的概率小很多。4) 转换为mapjoin:如果两个表join的时...原创 2020-12-31 23:05:00 · 1325 阅读 · 0 评论 -
Hive的TextFile、SequenceFile、RCfile 、ORCfile等压缩格式的区别
TextFile: 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用,但使用Gzip这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFile: SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Wr...原创 2020-12-31 23:09:00 · 3201 阅读 · 0 评论
分享