数据仓库(data warehouse)-简介

数据仓库是按照主题组织的、集成的、稳定的数据集合,主要用于决策支持。它反映了历史变化,不支持UPDATE和DELETE操作。Hive作为数据仓库工具,依赖HDFS存储数据,通过将SQL转换为MapReduce任务简化分布式计算。Hive的元数据存储了表与数据文件的关系、字段定义等信息,并可通过外部数据库如MySQL管理。在Hadoop集群上,Hive支持SQL查询分析,但不支持UPDATE和DELETE操作,适合离线批量数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据仓库:组织数据的方式,按照主题来进行组织(多张事实表+多张维度表)集成的相对稳定,没有update和delete操作

反映历史变化(Time Variant):历史数据,每条记录都是表示过去某个时刻的一条事实

数据仓库的价值:用于支持管理决策(Decision Marking Support)

数据仓库:历史数据,标准化结构数据,文本数据,进行查询分析,支持sql中的select语法

 

hive依赖于hdfs存储数据,hive的本质是将sql语句转换为Map Reduce任务运行,使得Map Reduce用户很方便的利用Hql处理和计算hdfs上的结构化数据,适用于离线的批量数据计算,极大简化分布式计算程序的编写,将精力集中于业务逻辑。

执行流程:driver接收语句-->compiler变成抽象语法树,逻辑执行计划,优化-->optimizer物理执行计划,优化-->executor执行

hdfs中的元数据(大文件的存储文件:分散存储+冗余存储)

  1. 目录树空间
  2. 每个大文件都对应到哪些小文件呢
  3. 一个数据块有三个副本,这个数据块的三个副本到底存储在哪三个节点呢?

hive的元数据:把存储在hdfs上的结构化数据想象成一张二维表

  1. 表名(表和数据文件之间的映射关系)
  2. 字段定义(由哪些字段组成的)
  3. 行列分隔符(行与行的界限,列与列的界限&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值