hive优化实战

最新推荐文章于 2022-08-24 00:00:23 发布

忆山

最新推荐文章于 2022-08-24 00:00:23 发布

阅读量213

点赞数

分类专栏： hive 面试准备文章标签： hive

本文链接：https://blog.csdn.net/qq_34936033/article/details/105193461

版权

本文详细介绍了Hive在表设计、语法参数、架构及业务场景四个层面的优化策略。表设计方面，强调了分区表、桶表、选择Parquet或ORC存储格式和合适压缩方式的重要性。语法和参数优化涉及列裁剪、分区裁剪、合并小文件等。架构层面，讨论了直接抓取、本地化执行、JVM重用等。在业务场景中，提出了处理数据倾斜的有效方法。这些优化措施有助于提升Hive查询效率和整体性能。

摘要由CSDN通过智能技术生成

这里从四个方面对 Hive 常用的一些性能优化进行了总结。

一 : 表设计层面优化

利用分区表优化

分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量大大减少，从而提高查询效率。

当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那么非常适合创建为分区表。

利用桶表优化

指定桶的个数后，存储数据时，根据某一个字段进行哈希后，确定存储在哪个桶里，
这样做的目的和分区表类似，也是使得筛选时不用全局遍历所有的数据，只需要遍历
所在桶就可以了。

选择合适的文件存储格式

Apache Hive 支持 Apache Hadoop 中使用的几种熟悉的文件格式。

TextFile 默认格式，如果建表时不指定默认为此格式。

存储方式:行存储。

每一行都是一条记录，每行都以换行符 \n 结尾。数据不做压缩时，磁盘会开销比较大，数据解析开销也比较大。

可结合 Gzip、Bzip2 等压缩方式一起使用(系统会自动检查，查询时会自动解压)，但对于某些压缩算法 hive 不会对数据进行切分，从而无法对数据进行并行操作。

SequenceFile
一种Hadoop API 提供的二进制文件，使用方便、可分割、个压缩的特点。

支持三种压缩选择:NONE、RECORD、BLOCK。RECORD压缩率低，一般建议使用BLOCK压缩。

RCFile

存储方式:数据按行分块，每块按照列存储。首先，将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读

取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

ORC

存储方式:数据按行分块，每块按照列存储

Hive 提供的新格式，属于 RCFile 的升级版，性能有大幅度提升，而且数据可以压缩存储，压缩快，快速列存取。

Parquet

存储方式:列式存储
Parquet 对于大型查询的类型是高效的。对于扫描特定表格中的特定列查询，Parquet

特别有用。Parquet一般使用 Snappy、Gzip 压缩。默认 Snappy。 Parquet 支持 Impala 查询引擎。

表的文件存储格式尽量采用 Parquet 或 ORC，不仅降低存储量，还优化了查询，压缩，表关联等性能;

选择合适的压缩方式

Hive 语句最终是转化为 MapReduce 程序来执行的，而 MapReduce 的性能瓶颈在与网络IO 和磁盘IO，要解决性能瓶颈，最主要的是减少数据量，对数据进行压缩是个好方式。压缩虽然是减少了数据量，但是压缩过程要消耗CPU，但是在Hadoop中，往往性能瓶颈不在于CPU，CPU压力并不大，所以压缩充分利用了比较空闲的CPU。

常用压缩算法对比

如何选择压缩方式

1. 压缩比率
2. 压缩解压速度 3. 是否支持split

支持分割的文件可以并行的有多个 mapper 程序处理大数据文件，大多数文件不支持可分割是因为这些文件只能从头开始读。

二 : 语法和参数层面优化

列裁剪

Hive 在读数据的时候，可以只读取查询中所需要用到的列，而忽略其他的列。这样做可以节省读取开销，中间表存储开销和数据整合开销。

分区裁剪

在查询的过程中只选择需要的分区，可以减少读入的分区数目，减少读入的数据量。

合并小文件

Map 输入合并

在执行 MapReduce 程序的时候，一般情况是一个文件需要一个 mapper 来处理。但是如果数据源是大量的小文件，这样岂不是会启动大量的 mapper 任务，这样会浪费大量资源。可以将输入的小文件进行合并，从而减少mapper任务数量。

1	set hive.optimize.cp = true; ‐‐ 列裁剪，取数只取查询中需要用到的列，默认为真

1	set hive.optimize.pruner=true; // 默认为true

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat ; ‐‐ Map端输入、合并文件之后按照block的大小分割(默认)

Map/Reduce输出合并

大量的小文件会给 HDFS 带来压力，影响处理效率。可以通过合并 Map 和 Reduce

的结果文件来消除影响。

1 2

set hive.merge.mapfiles=true; ‐‐ 是否合并Map输出文件, 默认值为真
set hive.merge.mapredfiles=true; ‐‐ 是否合并Reduce 端输出文件,默认值为假
set hive.merge.size.per.task=25610001000; ‐‐ 合并文件的大小,默认值为 256000000

合理控制 map/reduce 任

最低0.47元/天解锁文章

忆山

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive优化实战

这里从四个方面对 Hive 常用的一些性能优化进行了总结。一 : 表设计层面优化利用分区表优化分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局数据，使得处理的数据量大大减少，从而提高查询效率。当一个 Hive 表的查询大多数情况下，会根据某一个字段进行筛选时，那...
复制链接

扫一扫