HIve的调优和Flume的安装使用
hive的存储格式与压缩方式的对比以及存储格式与压缩方式的选择
数据的存储格式:
两大类:行式存储 列式存储
四小种:
行式存储两种:textFile sequenceFile
列式存储两种:parquet orc
一般从他人获取的源数据多为textFile格式
经过分析之后通过insert overwrite select 将我们分析出来的结果插入到另外一张临时表里面就可以使用parquet 或者orc这些列式存储格式
存储于压缩相结合:
存储格式与压缩方式没有关系
实际工作当中一般存储格式与压缩方式都会一起使用
orc格式的数据,默认带了一种压缩方式 zlib
注意:就算orc存储格式不带任何的压缩方式,也可以将数据变小 取决于我们列式存储的优势
实际工作当中一般分析之后存储数据的一些临时表都会使用 orc的存储格式,使用snappy的压缩方式
指定存储格式:
create table table_name (
.........
.....
.......
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS xxxxx(存储格式)
指定存储格式并且压缩:
create table table_name (
.........
.....
.......
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS xxxxx(存储格式) tblproperties("orgccompress="SNAPPY");
hive的调优
fetch的抓取
fetch的抓取 能不走MR的就尽量不走MR
hive.fetch.task.conversion = (none, minimal, more) 可以取这几个值
none——所有查询都需要进行MR
more——默认值,所有查询都不进行MR
minimal——较老版本的默认值
下面这些都不会执行mapreduce程序:
hive (default)> set hive.fetch.task.conversion=more;
hive (default)> select * from score;
hive (default)> select s_score from score;
hive (default)> select s_score from score limit 3;
本地模式
本地模式 可以解决我们有大量的小文件,处理时候分配资源过多的情况
开启本地模式的自动选择
开启本地mr:
set hive.exec.mode.local.auto=

本文探讨了Hive的存储格式与压缩方式的选择,如orc和parquet,以及Hive的调优策略,包括fetch的抓取、本地模式、join优化和group by的优化等。同时介绍了Flume的安装配置,用于在网络端口采集数据。
最低0.47元/天 解锁文章
2698

被折叠的 条评论
为什么被折叠?



