1数据仓介绍
英文名称为Data Warehouse,可简写为DW。
2 通俗解释:
面向分析的存储系统
一个面向主题的,集成的,不可修改的,反应历史变化的数据集合,适用于数据分析,辅助管理决策。
3数据仓库和数据库对比
主要联系:
1 都是用来存储数据的
2数据仓是数据库的一种衍生,延深应用
3数据仓库,数据库相辅相成,
主要区别:
1数据库是面向事务的设计,数据仓库是面向主题设计的
2数据库一般存储在线交易数据,实时性强存储空间有限,
数据仓库存储的一般是历史数据
3数据库设计是尽量避免冗余,而数据仓库设计是有意引入冗余
4数据库是为捕获数据而设计,即实时性强吞吐量弱,数据仓库是为分析数据而设计,即吞吐 量强实时性弱。
4Hive
定义: Hive是建立在 Hadoop 上的数据仓库基础架构和解决方案
架构:支持拿来即用,亦支持灵活的参数和计算引擎的变更
意义:
基于Hadoop平台解决了企业数据仓库构建的核心技术问题,证明了Hadoop平台的强大。进 一步降低了Hadoop使用的准入门槛
Hive基本使用
hive 回车 进入 hive cli
show databases; 查看所有数据库
create database 库名; 创建数据库
use 库名; 选择数据库
show tables; 查看某个数据库中所有表
create table 表名(列名 类型);创建一个表
-
- 退出hive cli会话
- 老版本:exit 直接退出
- 3.x新版本:!exit 或是 !quit均可以退出
Hive 运行流程