Hive是运行在hadoop的yarn平台之上的数据分析工具,Hive可以将hdfs之上的文本文件映射为一张张数据表,通过sql语句就可以进行数据分析操作。Hive中的解析器会将sql语句mapreduce的job运行。hive大大简化了分布式平台的使用,主要用于离线数据处理。
系统:centos6.5
java_version:jdk1.7
hadoop版本:2.4.1
Hive_version:0.13.0
这里不再赘述java环境的安装配置。
Hive只需在一个节点上安装即可,对于伪分布式环境下,只需安装在当前主机上即可。
关于Hadoop的安装配置请参考:http://blog.csdn.net/u013468917/article/details/50965530
1、准备安装文件
首先进入 http://mirrors.hust.edu.cn/apache/ 下载hive安装包 apache-hive-0.13.0-bin.tar.gz,然后将安装包上传至linux主机,这里我用的是securecrt远程登陆linux主机,只需在命令行界面下按alt+p,即可打开sftp窗口,将hive安装文件拖至该窗口,安装文件就会被上传至当前用户主目录。
2、解压文件:
tar -zxvf apache-hive-0.13.0-bin.tar.gz -C /cloud/
将安装文件解压到根目录下的/cloud/文件夹下,C为大写,/cloud/文件夹需要事先创建,否则会报错。
执行:vi /etc/profile
在最后一行添加环境变量:
export HIVE_HOME = /cloud/apache-hive-0.13.0-bin;
3、配置metastore:
metastore用于存储Hive的元数据信息,比如hive有哪些数据库,数据库中有那些表,表的结构,对应文本文件的位置等等元数据信息。
Hive解压之后进入解压目录下的conf目录执行:
mv hive-env.sh.template hive-env.sh
就可以直接运行 bin/hive,此时会在当前工作目录下生成一个名为metadata的derby数据库文件。这个数据库文件仅对于在当前目录下的操作有效,如果换了一个工作目录启动Hive,之前所建立的数据库和表信息全部无效,因为此时会在新目录下生成一个新的元数据文件。而且,这种derby数据库不支持多人同时访问。
为解决以上问题,可以将元数据信息存储在mysql数据库中。mysql数据库建议用yum来安装。
3.1安装mysql客户端:
yum install mysql安装mysql 服务器端:
yum install mysql-server
yum install mysql-devel