走近大数据之Hive入门(一、概述)

48 篇文章 0 订阅
48 篇文章 0 订阅

一、数据仓库

数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

走近大数据之Hive入门(一、概述)

 

OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;

OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。

走近大数据之Hive入门(一、概述)

 

数据仓库中的数据模型:星型模型和雪花模型。星型模型是数据仓库最基本的数据模型,雪花模型是在星型模型的基础上发展起来的。

走近大数据之Hive入门(一、概述)

 

二、什么是Hive

Hive 中的数据存储在 Hadoop HDFS 中,Hive 中的表和数据其实就是 HDFS 中的目录和文件:

在 Hive 中创建一张表就会自动在 HDFS 中创建一个文件夹。Hive表==>HDFS目录

在该表中保存数据也就相当于在这个文件夹下面存储文件。Hive数据==>HDFS文件

可以在 hive-site.xml 中指定数据仓库的目录:hive.metastore.warehouse.dir

走近大数据之Hive入门(一、概述)

 

走近大数据之Hive入门(一、概述)

 

注意

问题一:怎么理解数据仓库不可以更新?

数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。

但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。

如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。

这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值