- 架构
-
定义
1): 数据仓库(data warehouse)
2): 操作sql
3): 操作大型分布式数据集
-
产生背景
1): MapReduce编程不方便:开发、测试、需求变更
传统关系型数据库人员的需要
DBA:我就像使用sql一样的方式来处理分析大数据2): 文件存放在HDFS之上的,那么如果你想使用SQL去处理它,需要一个 什么前提?
结构化、文件映射成表格 ==> Schema 元数据信息(metastore) -
优势
1):SQL
2):Hadoop
3):MetaStore: Pig/Impala/Presto/SparkSQL共享元数据信息 -
部署
1)下载:http://archive-primary.cloudera.com/cdh5/cdh/5/
在使用CDH版本的时候一定要注意:尾巴对准了
wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz2)解压:tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C ~/app/
3)配置环境变量:
~/.bash_profile export HIVE_HOME=/home/hadoop/app/hive-1.1.0-cdh5.7.0 export PATH=$HIVE_HOME/bin:$PATH
生效: source ~/.bash_profile
3)Hive配置
Hive配置: H I V E H O M E / c o n f h i v e − e n v . s h H A D O O P H O M