Hive

最新推荐文章于 2023-09-03 16:01:48 发布

程序员椰子橙

最新推荐文章于 2023-09-03 16:01:48 发布

阅读量421

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/devcy/article/details/103952338

版权

大数据专栏收录该内容

69 篇文章 2 订阅

订阅专栏

Hive/HiveQL常用优化方法全面总结

Hive基础
Hive基础一（数据库，表，分区表，视图，导入导出数据）
Hive基础二（join原理和机制，join的几种类型，数据倾斜简单处理）
Hive基础三（查询中常用的语法）

一、order by
order by 是要对输出的结果进行全局排序，故此只有一个reducer(多个reducer无法保证全局有序)；
但是当数据量过大的时候，效率就很低。如果在严格模式下（hive.mapred.mode=strict）,则必须配合limit使用。
二、sort by
sort by 不是全局排序，只是在进入到reducer之前完成排序，只保证了每个reducer中数据按照指定字段的有序性，
是局部排序。配置mapred.reduce.tasks=[nums]可以对输出的数据执行归并排序。可以配合limit使用，提高性能。
三、distribute by
distribute by 指的是按照指定的字段划分到不同的输出reduce文件中，和sort by一起使用时需要注意，
distribute by必须放在前面
四、cluster by
cluster by 可以看做是一个特殊的distribute by+sort by，它具备二者的功能，但是只能实现倒叙排序的方式

distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列，对应reduce的个数进行分发，默认是采用hash算法。sort by为每个reduce产生一个排序文件。在有些情况下，你需要控制某个特定行应该到哪个reducer，这通常是为了进行后续的聚集操作。distribute by刚好可以做这件事。因此，distribute by经常和sort by配合使用。

注：Distribute by和sort by的使用场景

1.Map输出的文件大小不均。

2.Reduce输出文件大小不均。

3.小文件过多。

4.文件超大。

参考文献：
浅析Hive的四种排序方式
 Hive中的四种排序

Hive UDF

打jar包并上传将项目打包成jar file包并上传到服务器，然后使用Hive指令指定jar包的位置，将其添加到Hive。

hive> add jar /home/zhusheng/NationUDF.jar;
hive 下创建临时函数
hive> create temporary function getNation as ‘com.hive.udf.NationUDF’;
备注：这里是临时函数，也就是说shell窗口关闭了，该函数就不可用了，下次使用需要重新创建。
创建永久函数
CREATE FUNCTION sayhello2 AS ‘com.ruozedata.hadoop.udf.HelloUDF’ USING JAR ‘hdfs://ruozeclusterg6/lib/g6-hadoop-udf.jar’;
hive下调用
hive> select id, name, size, getNation(nation) as nation
from ext_beauties order by size desc;

Hive UDF开发
 hive之UDF函数编程详解

hive 内部表和外部表的区别
1.未被external修饰的是内部表【managed table】，被external修饰的为外部表【external table】。

2.内部表数据由Hive自身管理，外部表数据由HDFS管理。

3.内部表数据存储在hive.metastore.warehouse.dir【默认:/user/hive/warehouse】，外部表数据存储位置由用户自己决定。

4.删除内部表会直接删除元数据【metadata】及存储数据，删除外部表仅仅删除元数据，HDFS上的文件不会被删除。

5.对内部表的修改会直接同步到元数据，而对外部表的表结构和分区进行修改，则需要修改【MSCK REPAIR TABLE table_name】。
添加链接描述

hive有哪些方式保存元数据，各有哪些特点？
Hive支持三种不同的元存储服务器，分别为：内嵌式元存储服务器、本地元存储服务器、远程元存储服务器，每种存储方式使用不同的配置参数。

内嵌式元存储主要用于单元测试，在该模式下每次只有一个进程可以连接到元存储，Derby是内嵌式元存储的默认数据库。

在本地模式下，每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。mysql

在远程模式下，所有的Hive客户端都将打开一个到元数据服务器的连接，该服务器依次查询元数据，元数据服务器和客户端之间使用Thrift协议通信。
添加链接描述

hive的metastore的三种模式

1.Metadata概念：
元数据包含用Hive创建的database、table等的元信息。元数据存储在关系型数据库中。如Derby、MySQL等。

2.Metastore作用：
客户端连接metastore服务，metastore再去连接MySQL数据库来存取元数据。有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL数据库的用户名和密码，只需要连接metastore 服务即可。

内嵌Derby方式
这个是Hive默认的启动模式，一般用于单元测试，这种存储方式有一个缺点：在同一时间只能有一个进程连接使用数据库。
Local方式
本地MySQL
Remote方式
远程MySQL,一般常用此种方式

Hive Metastore原理及配置
 Metastore

hive中join都有哪些
Hive中除了支持和传统数据库中一样的内关联（JOIN）、左关联（LEFT JOIN）、右关联（RIGHT JOIN）、全关联（FULL JOIN），还支持左半关联（LEFT SEMI JOIN）

内关联（JOIN）

只返回能关联上的结果。

左外关联（LEFT [OUTER] JOIN）

以LEFT [OUTER] JOIN关键字前面的表作为主表，和其他表进行关联，返回记录和主表的记录数一致，关联不上的字段置为NULL。

右外关联（RIGHT [OUTER] JOIN）

和左外关联相反，以RIGTH [OUTER] JOIN关键词后面的表作为主表，和前面的表做关联，返回记录数和主表一致，关联不上的字段为NULL。

全外关联（FULL [OUTER] JOIN）

以两个表的记录为基准，返回两个表的记录去重之和，关联不上的字段为NULL。

LEFT SEMI JOIN

以LEFT SEMI JOIN关键字前面的表为主表，返回主表的KEY也在副表中的记录

笛卡尔积关联（CROSS JOIN）

返回两个表的笛卡尔积结果，不需要指定关联键。

Hive中Join的类型和用法

Impala 和 hive 的查询有哪些区别
Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析，实现了Hive的SQL语义的子集，功能还在不断的完善中。

Impala相对于Hive所使用的优化技术
1、没有使用 MapReduce进行并行计算，虽然MapReduce是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的SQL执行。与 MapReduce相比：Impala把整个查询分成一执行计划树，而不是一连串的MapReduce任务，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少的了把中间结果写入磁盘的步骤，再从磁盘读取数据的开销。Impala使用服务的方式避免每次执行查询都需要启动的开销，即相比Hive没了MapReduce启动时间。
2、使用LLVM产生运行代码，针对特定查询生成特定代码，同时使用Inline的方式减少函数调用的开销，加快执行效率。
3、充分利用可用的硬件指令（SSE4.2）。
4、更好的IO调度，Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势，同时Impala支持直接数据块读取和本地代码计算checksum。
5、通过选择合适的数据存储格式可以得到最好的性能（Impala支持多种存储格式）。
6、最大使用内存，中间结果不写磁盘，及时通过网络以stream的方式传递。
Impala和hive的比较