数据仓库Hive

数据仓库概念

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
根本目的 是为了支持企业内部的商业分析和决策,基于数据仓库的分析结果,做出相关的经营决策.

数据仓库的体系结构

在这里插入图片描述

数据仓库与数据库的区别

数据仓库中的数据比较稳定,保留了大量历史数据;
而数据库只保存某一时刻的数据.

Hive

对于传统数据仓库来说,既是数据存储产品也是分析产品,但Hive并不提供这些功能,它提供了类似关系数据库SQL语言的查询语言HiveQL,可以通过HiveQL语句快速实现简单的MapReduce统计,Hive自身将HiveQL语句转换为MapReduce任务进行运行.
两个方面特性
(1)采用批处理方式处理海量数据
(2)Hive提供了一系列对数据进行提取,转换,加载ETL的工具

Hive与其他组件的关系

在这里插入图片描述

Hive在企业中的应用

在这里插入图片描述
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。
BI(Business Intelligence) 即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

Hive系统架构

  • 用户接口模块
    包括CLI、HWI (HiveWebInterface)、JDBC、ODBC、Thrift Server
  • 驱动模块
  • 包括编译器、优化器、执行器,负责把HiveQL转化为一系列MapReduce作业
  • 元数据存储模块
    在这里插入图片描述

SQL转换成MapReduce基本原理
(1)join的实现原理
在这里插入图片描述
(2) group by的实现原理
在这里插入图片描述

Hive安装

http://dblab.xmu.edu.cn/blog/1080-2/

Hive数据类型
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值