复习充电之Hive

数据仓库
    数据仓库是将多个数据源的数据经过ETL处理之后,按照一定主题集成的,不可更新的,随时间不变化的数据集合,他用于
    支持企业或组织的决策分析处理
    ETC:Extract(抽取),Transform(转换),Load(加载)
数据仓库 Vs 数据库
      数据库是面向事务的设计,数据仓库是面向主题设计的
      数据库一般存储在线交易数据,数据仓库存储的一般是历史数据
      数据库设计师避免坑于,采用三范式规则来设计,数据仓库在设计师有意引入坑余
        采用反范式的方式来设计
数据仓库建设目标
    集成多源数据,数据来源和去向可追溯,梳理关系
    减少重复开发,保存通用型中间数据,避免重复计算
    屏蔽底层业务逻辑,对外提供一致并且结构清晰的数据
    
    
    
Hive
    hive允许熟悉MapReduce开发者的开发自定义的Mapper和reducer来处理内建的mapper和
    无法完成的复杂的分析工作
    Hive是sql解析引擎,他把sql语句转移成M.R job 然后在Hadoop执行

Hive的元数据
    Hive将元数据存储在数据库中,支持mysql,derby等数据库
    Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等)
    表的数据所在目录等
HQL的执行过程
    Hql -> 解析器(词法分析)->编译器(生产HQL的执行计划)->
    优化器(生成最佳的执行计划)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值