Hive体系架构、使用场景以及常用操作

最新推荐文章于 2024-08-23 07:30:00 发布

leehsiao

最新推荐文章于 2024-08-23 07:30:00 发布

阅读量607

点赞数

分类专栏： Hive 文章标签： hdfs

本文链接：https://blog.csdn.net/leehsiao/article/details/105798245

版权

Hive 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一：Hive体系结构(架构)的介绍

1、Hive的概念：

①Hive是为了简化用户编写MapReduce程序而生成的一种框架，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用户编程接口。Hive提供了一套类SQL的查询语言，称为QL，而在创造Hive框架的过程中之所以使用SQL实现Hive是因为大家对SQL语言非常的熟悉，转换成本低，可以大大普及我们Hadoop用户使用的范围，类似作用的Pig就不是通过SQL实现的。

Hive是基于Hadoop的一个开源数据仓库系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive可以把SQL中的表、字段转换为HDFS中的目录、文件。

②Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具，将我们的sql操作转换为相应的MapReduce jobs，然后在Hadoop上面运行。

在开始为大家列举的consumer.txt小业务当中，从编写Sql到最后得出Beijing 3的分析结果实际上中间走的是MapReduce程序，只不过这个MapReduce程序不用用户自己编写，而是由Hive这个客户端工具将我们的sql操作转化为了相应的MapReduce程序，下面是我们运行sql命令时显示的相关日志：

hive> select city,count(*)
    > from t4    
    > where city='beijing'
    > group by city;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
Starting Job = job_1478233923484_0902, Tracking URL = http://hadoop22:8088/proxy/application_1478233923484_0902/
Kill Command = /usr/local/hadoop/bin/hadoop job  -kill job_1478233923484_0902
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2016-11-09 11:36:36,688 Stage-1 map = 0%,  reduce = 0%
2016-11-09 11:36:42,018 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:43,062 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:44,105 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:45,149 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:46,193 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:47,237 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:48,283 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.21 sec
2016-11-09 11:36:49,329 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.7 sec
2016-11-09 11:36:50,384 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 3.7 sec
MapReduce Total cumulative CPU time: 3 seconds 700 msec
Ended Job = job_1478233923484_0902
MapReduce Jobs Launched: 
Job 0: Map: 1  Reduce: 1   Cumulative CPU: 3.7 sec   HDFS Read: 419 HDFS Write: 10 SUCCESS
Total MapReduce CPU Time Spent: 3 seconds 700 msec
OK
beijing 3
Time taken: 19.768 seconds, Fetched: 1 row(s)

从日志可以看出，Hive将我们的sql命令解析成了相应的MapReduce任务，最后得到了我们的分析结果。

③Hive可以认为是MapReduce的一个封装、包装。Hive的意义就是在业务分析中将用户容易编写、会写的Sql语言转换为复杂难写的MapReduce程序，从而大大降低了Hadoop学习的门槛，让更多的用户可以利用Hadoop进行数据挖掘分析。

为了让大家容易理解Hive的实质-------“Hive就是一个SQL解析引擎，将SQL语句转化为相应的MapReduce程序”这句话，博主用一个图示进行示例：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

从图示可以看出，Hive从某种程度上讲就是很多“SQL—MapReduce”框架的一个封装，可以将用户编写的Sql语言解析成对应的MapReduce程序，最终通过MapReduce运算框架形成运算结果提交给Client。
2、Hive体系结构的介绍
下面是Hive的体系结构图：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

Hive的体系结构可以分为以下几个部分：

①用户接口：包括shell命令、Jdbc/Odbc和WebUi，其中最常用的是shell这个客户端方式对Hive进行相应操作

②Hive解析器(驱动Driver)：Hive解析器的核心功能就是根据用户编写的Sql语法匹配出相应的MapReduce模板，形成对应的MapReduce job进行执行。

③Hive元数据库(MetaStore)：Hive将表中的元数据信息存储在数据库中，如derby(自带的)、Mysql(实际工作中配置的)，Hive中的元数据信息包括表的名字、表的列和分区、表的属性(是否为外部表等)、表的数据所在的目录等。Hive中的解析器在运行的时候会读取元数据库MetaStore中的相关信息。

在这里和大家说一下为什么我们在实际业务当中不用Hive自带的数据库derby，而要重新为其配置一个新的数据库Mysql，是因为derby这个数据库具有很大的局限性：derby这个数据库不允许用户打开多个客户端对其进行共享操作，只能有一个客户端打开对其进行操作，即同一时刻只能有一个用户使用它，自然这在工作当中是很不方便的，所以我们要重新为其配置一个数据库。

④Hadoop：Hive用HDFS进行存储，用MapReduce进行计算-------Hive这个数据仓库的数据存储在HDFS中，业务实际分析计算是利用MapReduce执行的。

从上面的体系结构中可以看出，在Hadoop的HDFS与MapReduce以及MySql的辅助下，Hive其实就是利用Hive解析器将用户的SQl语句解析成对应的MapReduce程序而已，即Hive仅仅是一个客户端工具，这也是为什么我们在Hive的搭建过程中没有分布与伪分布搭建的原因。(Hive就像是刘邦一样，合理的利用了张良、韩信与萧何的辅助，从而成就了一番大事!)

3、Hive的运行机制

Hive的运行机制如下图所示：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

Hive的运行机制正如图所示：创建完表之后，用户只需要根据业务需求编写Sql语句，而后将由Hive框架将Sql语句解析成对应的MapReduce程序，通过MapReduce计算框架运行job，便得到了我们最终的分析结果。

在Hive的运行过程中，用户只需要创建表、导入数据、编写Sql分析语句即可，剩下的过程将由Hive框架自动完成，而创建表、导入数据、编写Sql分析语句其实就是数据库的知识了，Hive的运行过程也说明了为什么Hive的存在大大降低了Hadoop的学习门槛以及为什么Hive在Hadoop家族中占有着那么重要的地位。

二、Hive常见的应用场景

(1)日志分析：大部分互联网公司使用hive进行日志分析，包括百度、淘宝等。

1)统计网站一个时间段内的pv、uv

2)多维度数据分析

(2)海量结构化数据离线分析

三、Hive的操作

Hive的操作对于用户来说实际上就是表的操作、数据库的操作。下面我们将围绕两个方面进行介绍：

1、Hive的基本命令.

启动hive命令行:

	$>hive/bin/hive
	$hive>show databases ;								-- 显式数据库
	$hive>create database mydb ;						-- 创建数据库
	$hive>use mydb ;									-- 使用库
	$hive>create table custs(id int , name string) ;	-- 建表
	$hive>desc custs ;									-- 查看表结构
	$hive>desc formatted custs ;						-- 查看格式化表结构
	$hive>insert into custs(id,name) values(1,'tom');	-- 插入数据，转成mr.
	$hive>select * from custs ;							-- 查询，没有mr
	$hive>select * from custs order by id desc ;		-- 全排序，会生成mr.
	$hive>exit ;										-- 退出终端


查看mysql中的元信息:
	select * from dbs ;									-- 存放库信息
	select * from tbls ;								-- 存放表信息

2、Hive表------内部表、外部表、分区表的创建

所谓内部表就是普通表，创建语法格式为：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

实际操作:

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

外部表(external table)的创建语法格式为：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

注意：最后一行写到的是目录dir，文件就不用写了，Hive表会自动到dir目录下读取所有的文件file
我在实际的操作过程当中发现，location关联到的目录下面必须都是文件，不能含有其余的文件夹，不然读取数据的时候会报错。

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

实际操作:

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

内部表与外部表的区别：

内部表在加载数据的过程中，实际数据会被移动到数据仓库目录中(hive.metastore.warehouse.dir),之后用户对数据的访问将会直接在数据仓库目录中完成；删除内部表时，内部表中的数据和元数据信息会被同时删除。

外部表在加载数据的过程中，实际数据并不会被移动到数据仓库目录中，只是与外部表建立一个链接(相当于文件的快捷方式一样)；删除外部表时，仅删除该链接。

补充：在工作中发现，对于外部表，即使hive中的表删除了，但是在HDFS中表的location仍然存在。

分区表的概念：指的是我们的数据可以分区，即按照某个字段将文件划分为不同的标准，分区表的创建是通过在创建表时启用partitioned by来实现的。

分区表的创建语法格式为：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

注意：分区表在加载数据的过程中要指定分区字段，否则会报错，正确的加载方式如下：

load data local inpath ‘/usr/local/consumer.txt’ into table t1 partition (day=2) ;

其余的操作和内部表、外部表是一样的。

实际操作:

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

参考2：

CREATE EXTERNAL TABLE `fdm_buffalo_3_5_task_exec_time`(
  `task_id`      int COMMENT '任务id', 
  `task_version` string COMMENT '任务版本', 
  `exec_time`    string COMMENT '平均执行时长')
PARTITIONED BY ( 
  `dt` string)
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t';


实际:
hive> show create table fdm_buffalo_3_5_task_exec_time;
OK
CREATE EXTERNAL TABLE `fdm_buffalo_3_5_task_exec_time`(
  `task_id` int COMMENT '任务id', 
  `task_version` string COMMENT '任务版本', 
  `exec_time` string COMMENT '平均执行时长')
PARTITIONED BY ( 
  `dt` string)
ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
  'hdfs://ns5/user/dd_edw/fdm.db/fdm_buffalo_3_5_task_exec_time'
TBLPROPERTIES (
  'mart_name'='dd_edw', 
  'transient_lastDdlTime'='1555384611')
Time taken: 0.036 seconds, Fetched: 17 row(s)

3、将数据文件加载(导入)到Hive表中

在Hive中创建完表之后，我们随后自然要向表中导入数据，但是在导入数据的时候和我们的传统数据库(MySql、Oracle)是不同的：Hive不支持一条一条的用insert语句进行插入操作，也不支持update的操作。Hive表中的数据是以load的方式，加载到建立好的表中。数据一旦导入，则不可修改。要么drop掉整个表，要么建立新的表，导入新的数据。

导入数据的语法格式为：

Hive为什么这么受欢迎？看完Hive架构以及应用介绍，你就明白了！

导入数据时要注意一下几点：

①local inpath表示从本地linux中向Hive表中导入数据，inpath表示从HDFS中向Hive表中导入数据

②默认是向原Hive表中追加数据，overwrite表示覆盖表中的原数据进行导入

③partition是分区表特有的，而且在导入数据数据时是必须添加的，否则会报错

④load 操作只是单纯的复制/移动操作，将数据文件复制/移动到 Hive 表对应的位置,即Hive 在加载数据的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的表中

导入示例代码：（注意overwrite的用法）

hive> load data local inpath "/home/dd_edw/zmy_project/task_relations.txt" overwrite into table fdm.chevrolet_buffalo_task_recusion_relations partition(dt='2019-05-28');
Loading data to table fdm.chevrolet_buffalo_task_recusion_relations partition (dt=2019-05-28)
Moved: 'hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations.txt' to trash at: hdfs://ns5/user/dd_edw/.Trash/Current
Moved: 'hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations_copy_1.txt' to trash at: hdfs://ns5/user/dd_edw/.Trash/Current
Partition fdm.chevrolet_buffalo_task_recusion_relations{dt=2019-05-28} stats: [numFiles=1, numRows=0, totalSize=272475104, rawDataSize=0]
OK
Time taken: 3.381 seconds
hive> dfs -ls hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/*/ ;
Found 1 items
-rwxr-xr-x   3 dd_edw dd_edw  272475104 2019-05-29 20:08 hdfs://ns5/user/dd_edw/fdm.db/chevrolet_buffalo_task_recusion_relations/dt=2019-05-28/task_relations.txt

4、Hive添加分区操作:
正确语句:

hive> ALTER TABLE fdm_buffalo_3_5_task_exec_time ADD IF NOT EXISTS PARTITION (dt='2019-04-15');
OK
Time taken: 0.059 seconds

错误语句：

hive> alter table fdm_buffalo_3_5_task_exec_time if not exists add partition (dt='2019-04-15');
NoViableAltException(132@[])
        at org.apache.hadoop.hive.ql.parse.HiveParser.alterTableStatementSuffix(HiveParser.java:8170)
        at org.apache.hadoop.hive.ql.parse.HiveParser.alterStatement(HiveParser.java:7635)
        at org.apache.hadoop.hive.ql.parse.HiveParser.ddlStatement(HiveParser.java:2798)
        at org.apache.hadoop.hive.ql.parse.HiveParser.execStatement(HiveParser.java:1731)
        at org.apache.hadoop.hive.ql.parse.HiveParser.statement(HiveParser.java:1136)
        at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:202)
        at org.apache.hadoop.hive.ql.parse.ParseDriver.parse(ParseDriver.java:166)
        at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:411)
        at org.apache.hadoop.hive.ql.Driver.compile(Driver.java:320)
        at org.apache.hadoop.hive.ql.Driver.compileInternal(Driver.java:1372)
        at org.apache.hadoop.hive.ql.Driver.runInternal(Driver.java:1425)
        at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1150)
        at org.apache.hadoop.hive.ql.Driver.run(Driver.java:1093)
        at org.apache.hadoop.hive.cli.CliDriver.processLocalCmd(CliDriver.java:241)
        at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:191)
        at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:551)
        at org.apache.hadoop.hive.cli.CliDriver.executeDriver(CliDriver.java:969)
        at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:912)
        at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:824)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:606)
        at org.apache.hadoop.util.RunJar.run(RunJar.java:221)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
FAILED: ParseException line 1:43 cannot recognize input near 'if' 'not' 'exists' in alter table statement

5、查看某个分区

desc formatted bdm.bdm_dispatch_1_d_task_da partition(dt='2019-07-14');

leehsiao

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录