Hive第一天总结

第一天学习hive总结

数据仓库:

数据仓库简称DW,是将数据从数据源中经过ETL后供数据分析的数据结合。数据仓库不生产数据。

数据仓库与数据库的区别:

数据库是直接存储数据的,数据仓库是将原有的数据整合在一起的数据结合,供数据分析使用。

数据仓库的特点:

  1. 数据是面向主题的:数据仓库中的数据都是为特定对象抽取整合的。
  2. 数据是集成的:所有的数据都是将不同的数据源中的数据经过ETL后的完整干净数据。
  3. 数据是不可修改的:数据仓库中的数据都是原有的历史数据。
  4. 数据是跟随时间变化的:根据数据源中数据的变化将数据整合到数据仓库中去。

数据仓库三层结构:

数据源层。主要用来提供需要的数据。
数据仓库层。存储干净的数据。
数据应用层。利用干净的数据进行分析。

数据仓库分层的好处:

  1. 将数据应用层与数据源层解耦,不会因为业务规则的改变而对数据清洗等产生影响。
  2. 将数据清洗拆分为多个步骤,就算某个操作出错,也可以及时调整。

数据集市:

即是数据仓库的一部分,主要面向某一单一的主题,是数据仓库的子集。

hive:

是一个数据仓库,可以将HDFS中的数据文件转化为一张数据库表,基于表提供类似sql的查询模型。

元数据:

指hive中hdfs文件与表之间的对应关系,即也就是映射信息。元数据具体来看包括表对应着哪个文件,表中的列对应着哪一个字段,文件字段的分割符是什么。

hive的 运行流程

在这里插入图片描述

hive的实质:

依托Hadoop,使用HDFS存储数据,将Hive sql语句转化为mapreduce任务执行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值