1. Hive简介
hive
是基于Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql
查询功能,可以将sql
语句转换为MapReduce
任务进行运行。其优点是学习成本低,可以通过类SQL
语句快速实现简单的MapReduce
统计,不必开发专门的MapReduce
应用,十分适合数据仓库的统计分析。
2. Hive的安装
安装hive
前请确保已经安装好hadoop
集群,通常使用mysql
作为hive
的元数据库,所以需要安装mysql
。
我的hadoop
集群是用3台虚拟机搭建的,分别是:
|
|
hive
只需要在hadoop
集群的一台节点上面安装即可。安装步骤通常有以下几步:
1 下载hive
到本地
我的hadoop
版本是2.7.2
的,这里选择了hive 2.x
版本。国内阿里的镜像速度比较快,可以选择这个版本(我用的版本是hive-2.1.0
),地址,下载到本地后并解压。
2 复制hive-site.xml
进入
hive-2.1.0\conf
目录修改
hive-default.xml.template
为hive-site.xml
,这个文件是hive
的核心配置文件;修改
hive-env.sh.template
为hive-env.sh
;修改
hive-log4j2.properties.template
为hive-log4j2.properties
;修改
hive-exec-log4j2.properties.template
为hive-exec-log4j2.properties
;
3 配置hive-site.xml