HIVE笔记

程序猿007号

已于 2023-06-30 17:22:09 修改

阅读量62

点赞数

文章标签： hive 笔记大数据

于 2023-06-26 19:13:24 首次发布

本文链接：https://blog.csdn.net/m0_48007567/article/details/131395626

版权

一、Hive概念

1.1Hive的定义

Hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

1.2.Hive特点

1.可扩展性 2.延展性 3.容错性

1.3Hive架构

1.4.基本组成

用户接口：包括 CLI、JDBC/ODBC、WebGUI。元数据存储：通常是存储在关系数据库如 mysql , derby中。解释器、编译器、优化器、执行器。

1.5.各组件的基本功能

用户接口主要由三个：CLI、JDBC/ODBC和WebGUI。其中，CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。

元数据存储：Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

1.6Hive与Hadoop的关系

Hive利用HDFS存储数据，利用MapReduce查询数据

1.7 Hive的数据存储

1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）

2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。

3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。

db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：与table类似，不过其数据存放位置可以在任意指定路径
partition：在hdfs中表现为table目录下的子目录
bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

二、Hive基本操作

2.1建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]

内部表（CREATE TABLE）:创建表，若该表已经存在，则抛出异常。（可以用IF NOT EXISTS选项来忽略这个异常）

外部表（EXTERNAL）:创建一个外部表，在建表的同时指定一个指向实际数据的路径（location）。

区别：

Hive创建内部表时，会将数据移动到数据仓库指向的路径，并会添加一个特殊字段；创建外部表时，仅记录数据所在的路径，不对数据的位置做任何改变。

在删除表时，内部表的元数据和数据会一起被删除；而外部表只删除元数据不删除数据。

分区表（PARTITIONED）:每个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下，分区是以字段的形式在表结构中存在，通过 desc table 命令可以查看到字段存在，是该字段不存放实际的数据内容，仅仅是分区的表示。分区建表分为 2 种，一种是单分区，也就是说在表文件夹目录下只有一级文件夹目录。另外一种是多分区，表文件夹下出现多文件夹嵌套模式。

优点：不再需要全表扫描，提高查询效率。

分桶表（CLUSTERED BY）:

最低0.47元/天解锁文章

程序猿007号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HIVE笔记

每个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下，分区是以字段的形式在表结构中存在，通过 desc table 命令可以查看到字段存在，是该字段不存放实际的数据内容，仅仅是分区的表示。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。1.可扩展性 2.延展性 3.容错性。
复制链接

扫一扫