Hive安装、配置及启动指南
Hive简介
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。由Facebook于2008年开源,Hive提供类似于SQL的HQL语句作为数据访问接口,使传统数据分析人员能够更容易地处理大数据。
使用Hive的原因
- 类似SQL的查询语法,兼容性好。
- 以MapReduce(或Spark)为计算引擎,HDFS为存储系统,具备超大数据集的计算和扩展能力。
Hive架构
服务端组件
- Driver:包括编译、优化和执行,负责解析HiveQL语句。
- Metastore:元数据服务组件,存储Hive元数据。
- HiveServer2:支持跨语言服务的开发和权限管理。
客户端组件
- CLI:命令行接口。
- JDBC/ODBC:基于HiveServer2的接口。
- WEBGUI:Hive Web Interface (HWI)。
Hive安装步骤
安装MySQL
-
安装wget命令:
yum -y install wget
-
下载MySQL的repo源:
wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm
-
安装MySQL repo包:
rpm -ivh mysql-community-release-el7-5.noarch.rpm
-
安装MySQL服务:
yum install mysql-server
-
启动MySQL服务:
systemctl start mysql.service
-
使用MySQL设置密码(如果需要):
set password for root@localhost = password('123456');
安装Hive
-
解压Hive到指定目录:
tar -xzvf apache-hive-3.1.3-bin.tar.gz -C /export/servers
-
配置环境变量,在
/etc/profile
添加:export HIVE_HOME=/export/servers/apache-hive-3.1.3-bin export HIVE_CONF_DIR=$HIVE_HOME/conf export PATH=$PATH:$HIVE_HOME/bin
-
使配置生效:
source /etc/profile
-
创建
hive-site.xml
并配置MySQL连接:<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive_meta?useSSL=false</value> </property>
-
修改Hadoop配置以开启代理功能。
-
配置
hive-env.sh
,指定Hadoop目录。 -
重命名日志配置文件。
-
在MySQL中创建Hive元数据库
hive_meta
。 -
拷贝MySQL驱动到Hive的lib目录。
-
删除冲突的log4j库。
-
使用
schematool
初始化MySQL中的Hive元数据。
启动Hive
命令行方式启动Hive
在$HIVE_HOME/bin
目录下执行:
hive
使用JDBC连接启动HiveServer2
-
启动
hiveserver2
服务:hiveserver2
-
使用
beeline
连接HiveServer2:beeline -u jdbc:hive2://localhost:10000 -n root