1,Hive是基于hadoop的数据仓库解决方案,由facebook贡献给Apache。Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据,这是怎么实现的呢?
2,我们先来看看Hive提供的接口,从下面Hive的架构图中可以很明显的看出来,Hive 提供了Hive shell,JDBC/ODBC,Web接口来使用和管理Hive数据仓库。
- Hive的shell接口可以通过客户端接受shell命令,而Hive 提供了类似于 sql的HiveQL语法,使得通过Hive可以用类似于操作关系数据库那样对Hive数据仓库进行操作,熟悉sql的数据分析人员可以很容易的学会操作Hive利用hadoop进行大数据分析。
- Web接口可以让我们像管理hadoop一样通过浏览器监控、管理hive数据仓库。
3,Hive的安装分为三种:内嵌模式、单机模式、远程模式
-
在/etc/profile中添加HIVE_HOME环境变量
- 在hive安装目录下的conf文件夹中的hive-default.xml.template,hive-log4j.properties.template复制改名:
cp hive-default.xml.template hive-site.xml
- cp hive-log4j.properties.template hive-log4j.properties
5.3,将之前下载解压的mysql的java驱动复制到{hivehome}/lib目录下
5.4 输入hive命令测试,hive独立安装是否成功。
总结:独立模式和内嵌模式区别和联系,独立模式是在内嵌模式的基础之上继续安装,独立模式要安装mysql数据库,要再hive-site.xml文件中指定元数据库为mysql,要将mysql的驱动包放置在hive安装目录下的lib目录中。
5.5远程模式的安装。
一是,远程模式首先要指定mysql的位置,在hive-site.xml文件中告诉hive怎么去连接mysql元数据库。
<name> hive.metastore.local </name>
<value> false </value>
<description>controls whether to connect to remote metastore server or open a new metastore server in Hive Client JVM</description>
</property>
<property>
<name> hive.metastore.uris </name>
<value> thrift://hadoop0:9083 </value>
<description></description>
</property>
对于远程安装,即把hive的元数据库安装在和hive不同的服务器上,所以和内嵌安装以及独立安装不同的是,我们需要单独启动远程的metastore服务,从而连接元数据库。
6,hive的远程启动。远程安装的启动步骤可以总结为:启动mysql服务(mysql service start),启动远程元数据服务(hive --service metastore),启动本地hive服务(hive --service hiveserver)。