hive的基本简介
hive概念:基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive利用HDFS存储数据,利用mapreduce查询分析数据,本质是将SQL转换为mapreduce程序,比直接使用mapreduce开发效率高。
hive的元数据存储:通常存在关系数据库中,如mysql.hive中将元数据存储在数据库中,hive的源数据包括表名称,表的列,表分区,表属性,其中表属性(是否为外部表等),表的数据所在目录等。
hive与传统DB的区别:
传统数据库:OLTP->面向事务操作型处理,就是关系型数据库mysql,oracle,sqlserver,db2。主要是支持业务,面向业务。
Hive:OLAP->面向分析分析型处理,就是数据仓库,面对的是历史数据开展分析。
Hive数仓开发基本流程
- 从业务系统获取数据
- 数据存储
- 写SQL开发需求
- 配置调度系统
- 导出数据&展示
从业务系统获取数据的几种方法
- sqoop导入数据库的数据:sqoop可以在Hive与传统的数据库之间进行数据的传递,可以将一个关系型数据库中的数据导进到hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
- Flume采集文本数据&