Hive从概念到原理

Hive是一个数据仓库基础工具,它是建立在Hadoop之上的数据仓库,在某种程度上可以把它看做用户编程接口(API),本身也并不存储和处理数据,依赖于HDFS存储数据,依赖MR处理数据。它提供了一系列对数据进行提取、转换、加载的工具。依赖于HDFS存储数据,依赖MR处理数据。在Hadoop中用来处理结构化数据。Hive查询语言采用Hive为MapReduce处理结构化数据。Hive不是实时查询语言。

一、数据仓库概念:

面向主题的,集成的,相对稳定的,反映历史变化的数据集和,用于支持管理决策。

根本目的:

数据仓库的管理和应用

 

数据仓库和数据库的区别:数据仓库的数据是稳定的,只读的,数据仓库存储历史数据,数据库只能保留某个时刻的特性,而数据仓库则保留了所有的历史数据。(用于帮助企业分析、决策)

传统数据仓库面临的挑战:1、面对实时海量数据,无法满足快速增长的海量数据存储要求2、无法有效处理不同类型数据3、计算和处理能力不足

二、Hive

基于hadoop平台的一个数据仓库工具,底层hadoop平台之上。

Hive本身不支持数据的存储和处理,但它给用户提供了一个编程接口,类似于SQL

借助HDFS存储数据

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值