数据仓库(Data Warehouse)是一个面 向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史 变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
——比尔·恩门(Bill Inmon,数据仓库之父),1991 ,Building the Data Warehouse
Hive是一个由Facebook 实现并开源基于Hadoop的数据仓库工具,将结构化的数据映射为一张数据库表,提供类似传统SQL的数据查询功能,其本质是将本质是将SQL句转换为MapReduce任务运行。
简言之,Hive是使用SQL方式完成大数据的MapReduce计算的数据仓库工具。
学习和使用Hive,推荐以下系列文章:
-
基本介绍和使用
Hive基本介绍
Hive是什么、为什么、架构、特点、对比关系型数据库、数据组织
Hive的安装部署
安装部署、基本使用
Hive的DDL操作
创建库、查看库、删除库、创建表、查看表、删除表、修改表、加载数据等
Hive的Shell操作 -
原理解析
Hive的元数据表结构
Hive的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。
Hive的接口:3种连接方式
Cli命令行、JDBC、WebUI
DbVisualizer配置连接hive
使用可视化界面查看Hive数据
Hive数据类型和存储格式
基本类型、复杂类型、存储格式 -
核心函数
Hive的内置函数
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK
Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE
Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP -
实践应用和优化
Hive中文乱码
Hive的高级操作
Hive的5个面试题
Hive的数据倾斜
Hive 执行过程实例分析
Hive 优化策略