Hive基础理论及表的类型_hive 5种-CSDN博客

本文链接：https://blog.csdn.net/PowerBlogger/article/details/83626449

本文介绍了Hive作为Hadoop的数据仓库工具，提供了关于Hive的原理和不同类型的表，包括内部表、外部表、临时表、分区表和分桶表的详细说明，以及如何建表、加载数据和管理这些表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是Hive？

Hive是建立在Hadoop上的，用来构建数据仓库的工具，里面有表的概念，可以使用SQL语句实现存储、查询和分析存储在 HDFS上的数据，这些SQL语句在Hive中称为HQL，语法和SQL语句基本一样。
由于数据是杂乱无章的，所以Hive需要一份关于这些数据的元数据来管理和操作这些数据。这份元数据包括：

元数据（
行的分隔符（在映射成表的时候知道在哪里分行显示）
字段分隔符（在映射成表的时候知道在哪里分列显示）
字段的类型
字段的名称
）

在Hive中，我们把数据存储在HDFS中，元数据默认存储在Hive自带的Derby数据库中，由于Derby不能实现并发访问，所以我们一般使用mysql进行替换。

Hive的原理

Hive 将用户的HQL 语句进行解析，优化，最终把一个个的HQL语句转换为MapReduce 作业提交到Hadoop 集群上，Hadoop进行作业的调度及监控，作业完成后将执行结果返回给用户。所以，Hive并不进行计算，只是把HQL解析为MapperReduce在HDFS集群中运行而已，所以Hive的效率并不高。

Hive表的类型

hive中有5种表：

1. 内部表

数据默认存储在/user/hive/warehouse，由hive自身管理，删除内部表会同时删除存储数据和元数据。

建表方式一：

create table t1(
	    id	INT，
	    name STRING，
	    age INT,
		gfs ARRAY<STRING>,
		address MAP<STRING,STRING>,
		info STRUCT<country:String,province:String,shi:String>
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ' ' 
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':' 
LINES TERMINATED BY '\n'
LOCATION "/test";//可以设置源数据的位置，若不设置默认就在Hive的工作目录区

建表方式二：

  create table gfstbl1 like gfstbl;只是创建表结构

建表方式三：

 create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl; 
  会创建相应的表结构，并且插入数据，相当于完整的赋值

加载数据：

load data local inpath '/root/gfs.txt' into table gfstbl;

查看表描述信息：

DESCRIBE [EXTENDED|FORMATTED] table_name
EXTENDED极简的方式显示
FORMATTED格式化方式来显示
DESCRIBE EXTENDED gfstbl;默认就是EXTENDED
DESCRIBE FORMATTED gfstbl;

插入数据的其他方式：

插入数据的方式：
	1、insert 新数