hive总结

20 篇文章 0 订阅
16 篇文章 0 订阅
  1. 数据仓库的概念
    数据仓库:主要用于做分析的OLAP
    数据库:事务处理 OLTP

  2. 数据仓库的分层
    源数据层:ODS层 主要是针对我们的来源数据
    数据仓库层:DW层 主要用于存储数据 分析数据
    数据展示层: APP层 主要用于做数据的报表展示功能

  3. hive的基本概念
    hive是一个用来做数据分析的框架,主要用于数据仓库
    hive与hadoop的关系:hive的数据存储到 hdfs hive的数据计算用 mapreduce

  4. hive的安装部署
    安装mysql 配置hive

  5. hive的基本操作
    建库语法
    建表语法:四种表模型 建表的语法
    内部表:删表的时候,同时删除hdfs的数据
    外部表:删表的时候不会删除hdfs上面的数据
    分区表:分文件夹,将我们的数据分到不同的文件夹里面去
    分桶表:份文件 应用mapreduce的分区规则 ,设置多个reduce的个数,然后将我们的文件划分成多个不同的小文件

     hive当中加载数据:掌握这两种方式     
     load data  local inpath
     insert overwrite table xxx select xxx
     hive的数据导出  导出到本地或 hdfs  
    
  6. hive的查询语法
    group by

  7. hive的参数设置
    三种方式 后定义覆盖前定义 3 》2 》1
    第一种 hive-site.xml
    第二种 bin/hive-hiveconf
    第三种 set xxx=xxx

  8. hive当中的函数 udf函数的定义流程
    有一次些自带的
    还可以自定义
    自定义UDF
    第一步:导入jar包
    第二步:写一个java类,继承UDF
    第三步:定义evaluate方法
    第四步:打包到hdfs集群
    第五步:add jar
    第六步:create temporary function 设置关联

  9. hive当中的数据压缩 snappy 自己编译源码支持snappy压缩

  10. hive当中的数据存储格式
    分为两大类
    行式存储 Text sequeFile
    列式存储 parquet orc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值