![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 83
后来X大数据
大数据开发
展开
-
源码分析:Hive on Spark时,读取Hive表后会有多少个Task?
大家好,我是后来。Hive 作为大数据中数仓的重要框架,从速度贼慢的MR引擎,再到Tez,到如今的Spark,速度一直在提升。虽然一条Hive SQL会转换成Spark的几个job,以及会生成多少Stage,我们还不好判断,但是Spark如何读取Hive表后会有多少个Task呢?我们知道Spark的Task数由partitions决定,那么又如何决定呢?Hive在读取不可切片文件的时候只能由单个节点来读入所有数据,即使自己手动设置分区都不行如果Hive表的每个分区的文件都是几M的可切片的小文件,那原创 2020-09-24 13:49:33 · 1430 阅读 · 0 评论 -
Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
大家好,我是后来,周末理个发,赶脚人都精神了不少,哈哈。因为上一篇文章中提到我在数仓的ods层因为使用的是STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'存储模式,但是遇到了count(*) 统计结果与select * 不一样的情况,所以我不得不开始详细了解一下文件的原创 2020-09-22 13:33:35 · 3818 阅读 · 2 评论 -
Hive SQL调优,distict去重效率竟然比group by高?union该如何优化?
关于Hive SQL优化这几天因为做数仓,写完SQL后总觉得自己写的SQL又臭又长,是不是应该好好优化下,于是还专门为此重新2本书学会了2点1、SQL优化?到底在优化什么?关于Hive SQL优化,大部分来说都是为了性能更优1、先整理需求难道group by就一定比distinct高效么?几乎所有的文档都这么写,尽量避开distinct去重,但事实真如此吗?让我们开看看2、如何看懂SQL执行计划count()我们都知道,如果直接select * from a;这个时候并不会走MR,那原创 2020-09-18 09:22:42 · 1818 阅读 · 0 评论 -
Hive环境调优总结大全,hive3大执行引擎区别在哪?
最近在做公司的数仓,遇到几个问题,希望大家可以不吝赐教:1、hive 中count(*) 结果不准确。场景:hive 中建表,stored as parquettblproperties ("parquet.compression"="lzo");从ods层导入数据,通过可视化工具连接hive发现该表数据没有空行,但count(*) 结果不准确,比实际值偏多。同时对该份数据进行简单查询select order_id from dwd_fact_order_info where dt = "20原创 2020-09-15 11:44:31 · 1205 阅读 · 0 评论 -
hive on tez执行任务报错,did not succeed due to VERTEX_FAILURE
hive on tez,在执行任务的时候报错,这种情况原因是container资源被抢占或者是资源不足。而task最大的失败次数默认是4.Status: FailedVertex failed, vertexName=Map 1, vertexId=vertex_1589254309642_0001_4_00, diagnostics=[Task failed, taskId=task_1589254309642_0001_4_00_000000, diagnostics=[TaskAttempt 0原创 2020-05-12 11:59:45 · 12240 阅读 · 0 评论