本文默认所有文件下载到/home/YourUserName/downloads
1. Hive简介
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。
2. Hive安装及其配置
- 下载Hive
进入Apache Hive的下载源页面
注:3.x.x版本是与Hadoop的3.y.y版本一起工作的,而2.x.x则是与Hadoop的2.y.y版本一起工作。
我Hadoop是3.1.3版本的所以下载3.1.2的Hive**(记得下载编译好的包)**
wget http://mirror.bit.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz
此外,我为Hive配的数据库时MySQL,所以需要下载MySQL的驱动jar包
wget https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.47/mysql-connector-java-5.1.47.jar
上面的下载速度太慢,可以试试下面这个
wget https://downloads.mysql.com/archives/get/p/3/file/mysql-connector-java-5.1.47.tar.gz # 从这里下载的文件要解压哦 tar -zxf mysql-connector-java-5.1.47.tar.gz
- 开始安装
解压
tar -zxf apache-hive mv apache hive cp hive /usr/local/hive
配置环境变量
vi /etc/source
加入
export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin
在hdfs目录并赋予权限
hdfs dfs -mkdir -p /usr/local/hive/warehouse hdfs dfs -mkdir -p /usr/local/hive/tmp hdfs dfs -mkdir -p /usr/local/hive/log hdfs dfs -chmod g+w /usr/local/hive/warehouse hdfs dfs -chmod g+w /usr/local/hive/tmp hd