转载请注明出处:http://blog.csdn.net/u012842205/article/details/71713842
一、Apache Hive简介
Apache Hive是基于Hadoop的一个数据仓库工具,用于使用SQL语法查询、读取、写入和管理大数据量的分布式数据结构。可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。作为一个SQL引擎,提供从数据源到用户的一个映射,目前Hive支持的数据源可以是HDFS、HBase等,而底层的执行引擎来自Apache Tez、Apache Spark、MapReduce。而Hive的SQL语法也支持标准的SQL(SQL:2003、SQL:2011等)。
Hive本质是将SQL转换为MapReduce程序,也即是说,对于数据的查询、写入、清洗等操作,都是通过Hive转化成MapReduce作业进行的。其底层依赖MapReduce,所以在配置过程中,也得配置好一个yarn服务。
再者,Hive使用RDBMS存储从数据源到用户定义数据表的一个映射关系。所以需要一个RDBMS。Hive目前支持的RDBMS为四中:
MS SQL Server | 2008 R2 | mssql |
MySQL | 5.6.17 | mysql |
Oracle | 11g | oracle |
Postgres | 9.1.13 | postgres |
本文部署使用的Hive为Apache版本2.1.1,其中MySQL使用 Ver 14.14 Distrib 5.7.17。Hadoop使用2.7.3。部署的操作系统环境为CentOS 7.2.1511,节点主机名称为hiveserver。本文只记录了Hive的部署和配置ÿ