![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 92
五分钟学大数据
公众号:五分钟学大数据
展开
-
Hive参数与性能企业级调优
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。为什么都说性能优化这项工作是比较难的,因为一项技术的优化,必然是一项综合性的工作,它是多门技术的结合。我们如果只局限于一种技术,那么肯定做不好优化的。下面将从多个完全不同的角度来介绍Hive优化的多样性,我们先来一起感原创 2022-06-06 11:50:44 · 729 阅读 · 1 评论 -
长文详解HiveSQL执行计划
本文目录:一、前言二、SQL的执行计划 explain 的用法 explain 的使用场景 案例一:join 语句会过滤 null 的值吗? 案例二:group by 分组语句会进行排序吗? 案例三:哪条sql执行效率高呢? 案例四:定位产生数据倾斜的代码段 explain dependency的用法 案例一:识别看似等价的代码 案例二:识别SQL读取数据范围的差别 explain authorization 的用法 本文首发于公众号【五分钟学大数据原创 2022-03-22 10:14:19 · 1690 阅读 · 3 评论 -
最强最全面的Hive SQL开发指南,超四万字全面解析
本文整体分为两部分,第一部分是简写,如果能看懂会用,就直接从此部分查,方便快捷,如果不是很理解此SQL的用法,则查看第二部分,是详细说明,当然第二部分语句也会更全一些!本文非常适合PDF版本查看,效果非常好,本文PDF链接:最全面Hive SQL开发指南PDF版http://mp.weixin.qq.com/s?__biz=Mzg2MzU2MDYzOA==&mid=100007677&idx=1&sn=613890e9387eefd94fb83982c3ca55b0&am.原创 2021-11-30 14:32:05 · 1641 阅读 · 9 评论 -
实操 | Hive 数据倾斜问题定位排查及解决
Hive 数据倾斜怎么发现,怎么定位,怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。本文首发在公众号【五分钟学大数据】今天我们不扯大篇理论,直接以例子来实践,排查是否出现了数据倾斜,具体是哪段代码导致的倾斜,怎么解决这段代码的倾斜。当执行过程中任务卡在 99%,大概率是出现了数据倾斜,但是通常我们的 SQL 很大,需要判断出是哪段代码导致的倾斜,才能利于我们解决倾斜。通过下原创 2021-08-06 17:04:36 · 1382 阅读 · 9 评论 -
Hive SQL语句的正确执行顺序
关于 sql 语句的执行顺序网上有很多资料,但是大多都没进行验证,并且很多都有点小错误,尤其是对于 select 和 group by 执行的先后顺序,有说 select 先执行,有说 group by 先执行,到底它俩谁先执行呢?今天我们通过 explain 来验证下 sql 的执行顺序。在验证之前,先说结论,Hive 中 sql 语句的执行顺序如下:from .. where .. join .. on .. select .. group by .. select .. having ..原创 2021-08-02 09:53:17 · 1097 阅读 · 2 评论 -
万字长文详解HiveSQL执行计划
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。要想学SQL执行计划,就需要学习查看执行计划的命令:explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。本文首发于公众号【五分钟学大数原创 2021-06-23 13:53:32 · 2834 阅读 · 4 评论 -
Hive窗口函数保姆级教程
在SQL中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。本文分为两部分:第一部分是Hive窗口函数详解,剖析各种窗口函数(几乎涵盖Hive所有的窗口函数);第二部分是窗口函数实际应用,这部分总共有五个例子,都是工作常用、面试必问的非常经典的例子。原创 2021-06-15 17:38:12 · 2294 阅读 · 4 评论 -
Hive SQL的底层编译过程详解
本文结构采用宏观着眼,微观入手,从整体到细节的方式剖析 Hive SQL 底层原理。第一节先介绍 Hive 底层的整体执行流程,然后第二节介绍执行流程中的 SQL 编译成 MapReduce 的过程,第三节剖析 SQL 编译成 MapReduce 的具体实现原理。Hive本文首发于公众号【五分钟学大数据】,公众号内可免费查看!Hive是什么?Hive 是数据仓库工具,再具体点就是一个 SQL 解析引擎,因为它即不负责存储数据,也不负责计算数据,只负责解析 SQL,记录元数据。Hive.原创 2021-05-26 10:45:44 · 4975 阅读 · 8 评论 -
精选Hive高频面试题11道,附答案详细解析(好文收藏)
1. hive内部表和外部表的区别未被external修饰的是内部表,被external修饰的为外部表。区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这原创 2021-05-13 18:36:06 · 3351 阅读 · 5 评论 -
Hive解析Json数组超全讲解
在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。本文首发于公众号【五分钟学大数据】Hive自带的json解析函数1. get_json_object 语法:get_json_object(json_string, '$.key') 说明:解析json的字符串json_string,返回path指定的内容。如原创 2021-05-12 10:52:14 · 14064 阅读 · 12 评论 -
Hive千亿级数据倾斜解决方案
数据倾斜问题剖析本文首发于公众号【五分钟学大数据】数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显,这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级,因为如果一个任务的数据量只有几百万,它即使发生了数据倾斜,所有数据都跑到一台机器去执行,对于几百万的数据量,一台机器执行起来还是毫无压力的,这时数据倾斜对我们感知不大,只有数据达到一个量级时,一台机器应付不了这么多的数据,这时如果发生数据倾斜,那么最后就很难算出结果。所以就需原创 2021-04-25 10:04:10 · 3563 阅读 · 20 评论 -
Hive企业级性能优化(好文建议收藏)
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能。本文将给大家讲解Hive性能调优的一些方法及技巧。本文首发于公众号:五分钟学大数据Hive性能问题排查的方式当我们发现一条SQL语句执行时间过长或者不合理时,我们就要考虑对SQL进行优化,优化首先得进行问题排查,那么我们可以通过哪些方式进行排查呢。原创 2021-04-13 11:27:21 · 2305 阅读 · 7 评论 -
一文学完所有的Hive Sql(两万字最全详解)
Hive Sql 大全本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode 以及 reflect窗口函数与分析函数其他一些窗口函数文章首发于公众...原创 2021-04-01 16:12:57 · 43492 阅读 · 18 评论 -
hive窗口函数/分析函数详细剖析
hive窗口函数/分析函数在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。窗口函数又叫OLAP函数/分析函数,窗口函数兼具分组和排序功能。窗口函数最重要的关键字是 partition by 和 order by。具体语法如下:over (partition by xxx order by xxx)原创 2021-01-21 21:33:02 · 344 阅读 · 0 评论 -
九个最容易出错的 Hive sql 详解及使用注意事项
阅读本文小建议:本文适合细嚼慢咽,不要一目十行,不然会错过很多有价值的细节。文章首发于公众号:五分钟学大数据前言在进行数仓搭建和数据分析时最常用的就是 sql,其语法简洁明了,易于理解,目前大数据领域的几大主流框架全部都支持sql语法,包括 hive,spark,flink等,所以sql在大数据领域有着不可替代的作用,需要我们重点掌握。在使用sql时如果不熟悉或不仔细,那么在进行查询分析时极容易出错,接下来我们就来看下几个容易出错的sql语句及使用注意事项。正文开始1. decimalhive原创 2021-01-12 16:04:46 · 1025 阅读 · 0 评论