hive优化实战

这里从四个方面对 Hive 常用的一些性能优化进行了总结。

一 : 表设计层面优化

利用分区表优化

分区表 是在某一个或者几个维度上对数据进行分类存储,一个分区对应一个目录。如 果筛选条件里有分区字段,那么 Hive 只需要遍历对应分区目录下的文件即可,不需要 遍历全局数据,使得处理的数据量大大减少,从而提高查询效率。

当一个 Hive 表的查询大多数情况下,会根据某一个字段进行筛选时,那么非常适 合创建为分区表。

利用桶表优化

指定桶的个数后,存储数据时,根据某一个字段进行哈希后,确定存储在哪个桶里,
这样做的目的和分区表类似,也是使得筛选时不用全局遍历所有的数据,只需要遍历
所在桶就可以了。

选择合适的文件存储格式

Apache Hive 支持 Apache Hadoop 中使用的几种熟悉的文件格式。

TextFile 默认格式,如果建表时不指定默认为此格式。

存储方式:行存储。

每一行都是一条记录,每行都以换行符 \n 结尾。数据不做压缩时,磁盘会开销比较 大,数据解析开销也比较大。

可结合 Gzip、Bzip2 等压缩方式一起使用(系统会自动检查,查询时会自动解压), 但对于某些压缩算法 hive 不会对数据进行切分,从而无法对数据进行并行操作。

SequenceFile
一种Hadoop API 提供的二进制文件,使用方便、可分割、个压缩的特点。

支持三种压缩选择:NONE、RECORD、BLOCK。RECORD压缩率低,一般建议使 用BLOCK压缩。

RCFile

存储方式:数据按行分块,每块按照列存储 。 首先,将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读

取多个block。 其次,块数据列式存储,有利于数据压缩和快速的列存取。

ORC

存储方式:数据按行分块,每块按照列存储

Hive 提供的新格式,属于 RCFile 的升级版,性能有大幅度提升,而且数据可以压缩 存储,压缩快,快速列存取。

Parquet

存储方式:列式存储
Parquet 对于大型查询的类型是高效的。对于扫描特定表格中的特定列查询,Parquet

特别有用。Parquet一般使用 Snappy、Gzip 压缩。默认 Snappy。 Parquet 支持 Impala 查询引擎。

表的文件存储格式尽量采用 Parquet 或 ORC,不仅降低存储量,还优化了查询, 压缩,表关联等性能;

选择合适的压缩方式

Hive 语句最终是转化为 MapReduce 程序来执行的,而 MapReduce 的性能瓶颈在与 网络IO 和 磁盘IO,要解决性能瓶颈,最主要的是 减少数据量,对数据进行压缩是个 好方式。压缩虽然是减少了数据量,但是压缩过程要消耗CPU,但是在Hadoop中, 往往性能瓶颈不在于CPU,CPU压力并不大,所以压缩充分利用了比较空闲的CPU。

常用压缩算法对比

如何选择压缩方式

1. 压缩比率
2. 压缩解压速度 3. 是否支持split

支持分割的文件可以并行的有多个 mapper 程序处理大数据文件,大多数文件不 支持可分割是因为这些文件只能从头开始读。

二 : 语法和参数层面优化

列裁剪

Hive 在读数据的时候,可以只读取查询中所需要用到的列,而忽略其他的列。这样做 可以节省读取开销,中间表存储开销和数据整合开销。

分区裁剪

在查询的过程中只选择需要的分区,可以减少读入的分区数目,减少读入的数据量。

合并小文件

Map 输入合并

在执行 MapReduce 程序的时候,一般情况是一个文件需要一个 mapper 来处理。但 是如果数据源是大量的小文件,这样岂不是会启动大量的 mapper 任务,这样会浪费 大量资源。可以将输入的小文件进行合并,从而减少mapper任务数量。

1

set hive.optimize.cp = true; ‐‐ 列裁剪,取数只取查询中需要用到的列,默认 为真

1

set hive.optimize.pruner=true; // 默认为true

1

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat ; ‐‐ Map端输入、合并文件之后按照block的大小分割(默认)

Map/Reduce输出合并


大量的小文件会给 HDFS 带来压力,影响处理效率。可以通过合并 Map 和 Reduce

的结果文件来消除影响。

1 2

3

set hive.merge.mapfiles=true; ‐‐ 是否合并Map输出文件, 默认值为真
set hive.merge.mapredfiles=true; ‐‐ 是否合并Reduce 端输出文件,默认值为 假
set hive.merge.size.per.task=25610001000; ‐‐ 合并文件的大小,默认值为 256000000

合理控制 map/reduce 任

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值