![0872b42320571b0cdae83092eb7c7f5e.png](https://i-blog.csdnimg.cn/blog_migrate/e3e6b348e21ae610fee9e7cd1e471a6e.jpeg)
![2e3bf83c8c96b9ff9e110d5dbe43158d.png](https://i-blog.csdnimg.cn/blog_migrate/2c18fb7d421cba80141f36e31149739a.jpeg)
前言:老刘不敢说写的有多好,但敢保证尽量用大白话把自己复习的知识点详细解释出来,
拒绝资料上的生搬硬套,做到有自己的了解!
01 hive知识点(1)
![7a6c80dc4fbd45be4314b3f60e871bea.png](https://i-blog.csdnimg.cn/blog_migrate/e880d9ae6e378a0d5dd7cb5f88ce0a59.png)
第1点:数据仓库的概念
由于hive它是基于hadoop的一个数据仓库工具,老刘先讲讲数据仓库的一些东西,再开始讲hive。
数据仓库,听名字就知道它是用来存放数据的一个仓库,仓库不同于工程,仓库只用来存放东西,不生产,也不消耗。
精简的讲,数据仓库它本身不生产数据,也不会消耗数据,数据从外部来,供给外部使用,主要用于数据分析,对企业的支持决策做一些辅助。
第2点:数据仓库的特征
数据仓库有4个特征:
面向主题的:就是说它都是有目的的进行构建数据仓库,用它干某件事;
集成的:就是说将所有用到的数据都集成到一起;
非易失的:就是说里面的数据一般都不会改变;
时变的:就是说随着时间的发展,数据仓库的分析手段也会发生改变。
第3点:数据仓库和数据库的区别
看到之前讲的数据仓库概念就知道,这两个区别大了。
首先举个例子,客户在银行做的每笔交易都会写入数据库,被记录下来,就相当于用数据库记账。
而数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的一些依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。如果存款又少,消费交易又多,那么该地区就有必要设立ATM了。
接着要说的是,数据库和数据仓库的区别实际上讲的是OLTP和OLAP的区别。
操作性处理,OLTP联机事务处理,也可以叫做面向交易的处理系统,它是针对于具体业务在数据库联机的日常操作,通常对记录进行查询、修改,人们一般关心操作的响应时间、数据是否安全、完整和并发的相关问题。
分析型处理,联机分析处理OLAP,一般针对于某些主题的历史数据进行分析,支持管理决策。
总结一下就是,数据仓库的出现,不是为了取代数据库。
数据库是面向事务的设计,数据仓库是面向主题的设计。
数据库存储的一般是业务数据,数据仓库存储的一般是历史数据。
数据库是为了捕获数据设计的,而数据仓库是为了分析数据设计的。
还有一点就是,数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源,为了进行决策而产生的。
第4点:数据仓库分层
首先说说数据仓库可分为三层:
源数据层(ODS):它主要用于保管我们的原始数据;