第一天学习hive总结
数据仓库:
数据仓库简称DW,是将数据从数据源中经过ETL后供数据分析的数据结合。数据仓库不生产数据。
数据仓库与数据库的区别:
数据库是直接存储数据的,数据仓库是将原有的数据整合在一起的数据结合,供数据分析使用。
数据仓库的特点:
- 数据是面向主题的:数据仓库中的数据都是为特定对象抽取整合的。
- 数据是集成的:所有的数据都是将不同的数据源中的数据经过ETL后的完整干净数据。
- 数据是不可修改的:数据仓库中的数据都是原有的历史数据。
- 数据是跟随时间变化的:根据数据源中数据的变化将数据整合到数据仓库中去。
数据仓库三层结构:
数据源层。主要用来提供需要的数据。
数据仓库层。存储干净的数据。
数据应用层。利用干净的数据进行分析。
数据仓库分层的好处:
- 将数据应用层与数据源层解耦,不会因为业务规则的改变而对数据清洗等产生影响。
- 将数据清洗拆分为多个步骤,就算某个操作出错,也可以及时调整。
数据集市:
即是数据仓库的一部分,主要面向某一单一的主题,是数据仓库的子集。
hive:
是一个数据仓库,可以将HDFS中的数据文件转化为一张数据库表,基于表提供类似sql的查询模型。
元数据:
指hive中hdfs文件与表之间的对应关系,即也就是映射信息。元数据具体来看包括表对应着哪个文件,表中的列对应着哪一个字段,文件字段的分割符是什么。
hive的 运行流程
hive的实质:
依托Hadoop,使用HDFS存储数据,将Hive sql语句转化为mapreduce任务执行。