目录
一、数据仓库
数据仓库是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。
OLTP应用:联机事务处理,关注的是事物的处理,典型的OLTP应用是银行转账,一般操作频率会比较高;
OLAP应用:联机分析处理,主要面向的是查询,典型的OLAP应用是商品推荐系统,一般不会做删除和更新,数据一般都是历史数据。
数据仓库中的数据模型:星型模型和雪花模型。星型模型是数据仓库最基本的数据模型,雪花模型是在星型模型的基础上发展起来的。
二、什么是Hive
Hive 中的数据存储在 Hadoop HDFS 中,Hive 中的表和数据其实就是 HDFS 中的目录和文件:
在 Hive 中创建一张表就会自动在 HDFS 中创建一个文件夹。Hive表==>HDFS目录
在该表中保存数据也就相当于在这个文件夹下面存储文件。Hive数据==>HDFS文件
可以在 hive-site.xml 中指定数据仓库的目录:hive.metastore.warehouse.dir
注意
问题一:怎么理解数据仓库不可以更新?
数据仓库一定要更新的,因为不断的将OLTP产生的数据通过ETL导入数据仓库中。
但是,已经导入数据仓库中的数据,是不会更新的,换句话说,一条数据进入了数据仓库,就不会再做任何改变。
如果想要对已有的数据进行更改,只会产生新的数据,再次倒入数据仓库。
这是因为,数据仓库是用来做决策分析的。过去的所有数据,都是代表了当时的状态,所以不可以有任何改变。就像历史一样,已经成为事实的东西,是不能改变的。