一.数据仓库概述
- 英文名称:Data Warehouse
- 面向分析的存储系统
- 数据仓库和数据库的对比
- 两者联系
- 两者都是存储数据的,都是数据的载体
- 数据仓库也是一种数据库,是数据库的一种衍生和拓展
- 数据仓库和数据库之间有数据交互
- 数据库中的在线数据推送到数据仓库中做离线的分析
- 数据仓库的数据处理结果也会推送到数据库中做前台页面的展示
- 数据仓库的出现并不是要取代数据库,而是各有各的作用,相辅相成,各有千秋
- 两者联系
- 区别
- 数据库是面向事务设计的,数据仓库是面向主题
- 数据库一般存储在线数据,实时性强,存储空间有限,数据仓库一般存储历史数据,实时性差,但数据庞大
- 数据库的设计是尽量避免冗余,数据仓库的设计是有意引入冗余
- 数据库是为了捕获数据而设计,实时性强吞吐量小,数据仓库是为了分析数据而设计,实时性弱吞吐量大
二.Hive的产生背景
- 背景
- 提供简单易用的大数据应用操作方案
- Fackbook的强大商业需求和商业化运作
- 提供简单易用的大数据应用操作方案
- 定义
- Hive是建立在Hadoop上的数据仓库基础架构和解决方案
- 作用
- 数据仓库构建的完整解决方案
- 意义
- 基于Hadoop平台解决了企业级数据仓库构架的核心技术问题,证明了Hadoop平台的强大
- 降低了Hadoop的使用难度
三.Hive在Hadoop生态圈的地位
![](https://img-blog.csdnimg.cn/f8920b4c9b024eb5974a645bc3ea74b3.png)
四.hive的发展
- 2013年产生
- 目前的最主流版本为2.3.x,较新和未来的主推版本是3.1.x。
- 就业前景
- 大数据企业做数据仓库首选的解决方案
- 数据仓库应用开发、数据分析、数据挖掘最常用的工具之一
- 大数据技术应用最简单、直接的入口
- 市场需求量极大,较易于就业。