hive 简介 数据仓库介绍

HIVE简介

由Facebook开发,Hadoop集群:庞大数据存储 & 统计(计算)需求

  • HIVE基于Hadoop的数据仓库工具,强依赖
  • 原理:将HQL语句转换成Mapreduce任务 SQL –> Mapreduce –> Hadoop
  • 建立在Hadoop的其他组件之上
  • 依赖HDFS进行存储
  • 依赖Mapreduce进行查询

数据仓库

  1. 数据源

    • 外部数据:第三方系统(爬虫)
    • 业务数据系统:内部系统,OA、CRM、CMS等
    • 文档资料:网站附件、公司内部文件

    • 抽取:数据源 -> 数据仓库

      1. 推:源自动将数据发送到数据库
      2. 拉:数据仓库主动从指定位置去拿
    • 数据清洗

    • 装载:将清洗后的数据,永久或暂时存储在数据仓库
    • 刷新:将新的数据刷新到数据仓库中
  2. 数据仓库与管理

    • 元数据管理:存储数据库、表、字段,要求速度快,数据量小建议使用RDBMS(关系型数据库,如MySQL)
    • 数据仓库管理系统:只存储需要数据,HIVE
    • 数据集市:从数据库中抽取有价值的信息
  3. OLAP服务器
    • 服务
  4. 前端工具与应用
    • 数据分析
    • 数据报表
    • 数据挖掘
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值