一·数据仓库和数据库
1·数据仓库和数据库的概念及特点
数据仓库(分析型处理)是一个用于存储和管理大量数据的系统,通常用于支持企业的决策制定和分析。通常是面向用户交易的处理系统。其主要特征是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant )。
数据库(操作型处理)是一个用于存储和管理数据的系统,通常用于支持应用程序的数据存储和访问。是面向专业分析人员进行数据分析,通常进行查询分析操作。
2 ·数据仓库和数据库的区别
数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储业务数据,数据仓库存储的一般是历史数据。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计。
数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,符合业务应用,但是不符合分析。
数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。
3·数据仓库的架构
分为三层分别为源数据层,数据仓库层,数据应用层。
二·数据库的操作
1·操作前需要的步骤
需要在IDEA上进行操作
在这里面建立Apache Hive和MySQL进行数据库的操作。
2·数据库的基本操作
其中【】里代表可写可不写,EXTERNAL是创建外部表,col_name是列名,data_type是数据类型,PARTITIONED BY 是分区表,CLUSTERED BY是分桶表,STORED BYS是存储格式,LOCATION是存储位置。在PPT里还有关于表的各种操作。