HIve的调优和Flume的安装使用

本文探讨了Hive的存储格式与压缩方式的选择,如orc和parquet,以及Hive的调优策略,包括fetch的抓取、本地模式、join优化和group by的优化等。同时介绍了Flume的安装配置,用于在网络端口采集数据。
摘要由CSDN通过智能技术生成

hive的存储格式与压缩方式的对比以及存储格式与压缩方式的选择

数据的存储格式:
两大类:行式存储 列式存储
四小种:
行式存储两种:textFile sequenceFile
列式存储两种:parquet orc
一般从他人获取的源数据多为textFile格式
经过分析之后通过insert overwrite select 将我们分析出来的结果插入到另外一张临时表里面就可以使用parquet 或者orc这些列式存储格式

存储于压缩相结合:
存储格式与压缩方式没有关系
实际工作当中一般存储格式与压缩方式都会一起使用
orc格式的数据,默认带了一种压缩方式 zlib
注意:就算orc存储格式不带任何的压缩方式,也可以将数据变小 取决于我们列式存储的优势
实际工作当中一般分析之后存储数据的一些临时表都会使用 orc的存储格式,使用snappy的压缩方式


指定存储格式:

    create table table_name (

     .........

    .....

    .......

     )

    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 

     STORED AS  xxxxx(存储格式)

指定存储格式并且压缩:


     create table table_name (

     .........

    .....
  
    .......

     )

    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 

    STORED AS  xxxxx(存储格式)  tblproperties("orgccompress="SNAPPY");

hive的调优

fetch的抓取

fetch的抓取 能不走MR的就尽量不走MR
hive.fetch.task.conversion = (none, minimal, more) 可以取这几个值
none——所有查询都需要进行MR
more——默认值,所有查询都不进行MR
minimal——较老版本的默认值
下面这些都不会执行mapreduce程序:

    hive (default)> set hive.fetch.task.conversion=more;
    hive (default)> select * from score;
    hive (default)> select s_score from score;
    hive (default)> select s_score from score limit 3;

本地模式

本地模式 可以解决我们有大量的小文件,处理时候分配资源过多的情况
开启本地模式的自动选择

开启本地mr:

     set hive.exec.mode.local.auto=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值