数据仓库 数据仓库是将多个数据源的数据经过ETL处理之后,按照一定主题集成的,不可更新的,随时间不变化的数据集合,他用于 支持企业或组织的决策分析处理 ETC:Extract(抽取),Transform(转换),Load(加载) 数据仓库 Vs 数据库 数据库是面向事务的设计,数据仓库是面向主题设计的 数据库一般存储在线交易数据,数据仓库存储的一般是历史数据 数据库设计师避免坑于,采用三范式规则来设计,数据仓库在设计师有意引入坑余 采用反范式的方式来设计 数据仓库建设目标 集成多源数据,数据来源和去向可追溯,梳理关系 减少重复开发,保存通用型中间数据,避免重复计算 屏蔽底层业务逻辑,对外提供一致并且结构清晰的数据 Hive hive允许熟悉MapReduce开发者的开发自定义的Mapper和reducer来处理内建的mapper和 无法完成的复杂的分析工作 Hive是sql解析引擎,他把sql语句转移成M.R job 然后在Hadoop执行 Hive的元数据 Hive将元数据存储在数据库中,支持mysql,derby等数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等) 表的数据所在目录等 HQL的执行过程 Hql -> 解析器(词法分析)->编译器(生产HQL的执行计划)-> 优化器(生成最佳的执行计划)
复习充电之Hive
最新推荐文章于 2024-09-13 14:22:54 发布