三、HIVE 高级进阶笔记

最新推荐文章于 2021-10-30 21:31:34 发布

冷叶飘零

最新推荐文章于 2021-10-30 21:31:34 发布

阅读量236

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/lt66_88/article/details/79778778

版权

2 篇文章 0 订阅

订阅专栏

  1.hiveserver2 

  2.压缩格式 

  snappy 用mvn 编译 use -Drequire.snappy 替换hadoop ***/native 

  bin/hadoop checknative 检查 

  压缩比:bzip2>gzip>lzo>snappy 

  解压速度: spappy>lzo>gzip>bzip2 

  其中 gzip不支持分区，其他都支持 

  3.数据格式 

  sequence,textfile 

  rc,orc,paqquet 列式存储,压缩 

  avro 

  create table Addresses ( 

  name string, 

***

  zip int 

  ) stored as orc tblproperties ("orc.compress"="SNAPPY"); 

  局部小结： 

  4.hive调优 

  e.g: 

  create table page_views_orc_snappy 

  stored by orc 

  as select * from xxx; 

  发生的阶段，reduce task 

  大表对大表，每张表都是从文件中读取 

  map task阶段 

  大表从文件读取，小表内存中，即DistributedCache 

  4.explain [extended] 查看执行计划 

  IIII 项目实战 

  CREATE TABLE apachelog ( 

  host STRING, 

***

  agent STRING) 

  ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe' 

  WITH SERDEPROPERTIES ( 

  "input.regex" = "" 

)

  STORED AS TEXTFILE; 

  USING 'python xxx.py' -- script 

  AS (field1,field2...) -- output 

  from u_data; 

  select field1,count(*） from 
 u_data_new  group by field1; 

 
 xxx.py --python脚本，要单独写 

关注