![3320d3b710de96da8f3195b5ebb2ae48.png](https://i-blog.csdnimg.cn/blog_migrate/21cf7a656fdcb9d59ab2c65ae5ffa830.png)
前言
简单介绍一下什么是hive,按照官方的定义是:hive是基于Hadoop的一个数据库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据库的统计分析。
其实就可以这么理解:Hadoop本身的mapreduce变成起来太麻烦,写起来真的要人命,于是hive诞生了,通过只需要写sql语句就可以将sql转成mapreduce程序了,提高了效率,简化了流程。
还有一个比较重要的点从上面描述也知道,hive就是一个工具,实际上必须要先有Hadoop集群才行,所以我来说一下我的集群。
我的集群是hadoop2.7.3版本的,有三个节点,分别为node1、node2、node3.
三种模式
hive可以安装为三种模式,分别为
内嵌模式:
--元数据保存在内嵌的derby数据库中,只允许一个会话链接,尝试多个会话链接时会报错
本地模式:
--本地安装模式其实就是把mysql和hive安装在一台机器上而已(这就是本地模式)
(本地安装mysql 替代derby存储元数据,使用mysql进行hive的元数据信息管理)
远程方式:
--远程模式的意思就是mysql的安装和hive的安装没有在同一台机器上,和本地模式最大的区别就是在hive-site.xml中,我们需要修改下mysql的ip地址和端口号。但是我们需要注意以下两个问题:
--hive-site.xml中的mysql安装主机的ip地址和端口号.
--访问mysql的用户名的访问权限需要进行设置
由于内嵌模式只能支持一个链接,对于真实使用是在式鸡肋,本文就不说了,另外本地模式和远程模式其实很像,所以就按照本地式来展开。
下载
第一步就是要下载,我推荐到官方去下载
官网地址:
https://hive.apache.org/
这次我下载的版本是1.2.2
下载地址:
https://apache.org/dist/hive/hive-1.2.2/apache-hive-1.2.2-bin.tar.gz
给大家看一下我已经下载的安装包