一、Hive是什么?
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
二、Hive的应用场景
Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。因此, Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
三、Hive的体系结构
主要分为以下几个部分:
1.用户接口(CLI、Client、WUI)
用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。
2. 元数据存储(Meta store)
Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
3. 解析器、编译器、优化器、执行器
解析器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并随后由 MapReduce 调用执行。
4.Hadoop
Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapReduce 任务)。
四、Hive安装
下载Hive网站:http://archive.apache.org/dist/hive/
4.1.下载、解压hive-1.2.0-bin.tar.gz 任意目录下
tar -zxvf hive-1.2.0-bin.tar.gz -C /home/packge
4.2.配置环境变量
vi conf/hive.sh
// 配置其中的$hadoop_home= echo $hadoop_home的路径
4.3.创建一个文件,配置元数据库信息
vi conf/hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
//这里的密码是自己的密码
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>
4.4.拷贝mysql-connector的jar包到hive-1.2.0/lib中
cp -r mysql-connector /home/packge/hive-1.2.0/lib
4.5.启动Hive 先开启Hadoop再后开启Hive
bin/hive
五、Hive的使用
5.1.创建student表, 并声明文件分隔符’\t’
create table student(id int, name string)
ROW FORMAT DELIMITED FIELDS TERMINATEDBY '\t';
5.2.加载数据到hive表 双引号也可以
load data local inpath '/home/module/student.txt' into table student;
5.3.Hive查询结果
select * from student;
OK
1001 xiaoli
1002 libingbing
1003 fanbingbing
Time taken: 0.266 seconds, Fetched: 3 row(s)
六、Hive 配置显示表头和数据库信息
6.1.在hive-site.xml文件中添加如下配置信息
vi hive-site.xml
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
6.2.重启Hive
配置前:
配置后: