Hive基础理论及表的类型

本文介绍了Hive作为Hadoop的数据仓库工具,提供了关于Hive的原理和不同类型的表,包括内部表、外部表、临时表、分区表和分桶表的详细说明,以及如何建表、加载数据和管理这些表。
摘要由CSDN通过智能技术生成

什么是Hive?

Hive是建立在Hadoop上的,用来构建数据仓库的工具,里面有表的概念,可以使用SQL语句实现存储、查询和分析存储在 HDFS上的数据,这些SQL语句在Hive中称为HQL,语法和SQL语句基本一样。
由于数据是杂乱无章的,所以Hive需要一份关于这些数据的元数据来管理和操作这些数据。这份元数据包括:

元数据(
行的分隔符(在映射成表的时候知道在哪里分行显示)
字段分隔符(在映射成表的时候知道在哪里分列显示)
字段的类型
字段的名称
)

在Hive中,我们把数据存储在HDFS中,元数据默认存储在Hive自带的Derby数据库中,由于Derby不能实现并发访问,所以我们一般使用mysql进行替换。

Hive的原理

Hive 将用户的HQL 语句进行解析,优化,最终把一个个的HQL语句转换为MapReduce 作业提交到Hadoop 集群上,Hadoop进行作业的调度及监控,作业完成后将执行结果返回给用户。所以,Hive并不进行计算,只是把HQL解析为MapperReduce在HDFS集群中运行而已,所以Hive的效率并不高。

Hive表的类型

hive中有5种表:

1. 内部表

数据默认存储在/user/hive/warehouse,由hive自身管理,删除内部表会同时删除存储数据和元数据。

建表方式一:
create table t1(
	    id	INT,
	    name STRING,
	    age INT,
		gfs ARRAY<STRING>,
		address MAP<STRING,STRING>,
		info STRUCT<country:String,province:String,shi:String>
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ' ' 
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':' 
LINES TERMINATED BY '\n'
LOCATION "/test";//可以设置源数据的位置,若不设置默认就在Hive的工作目录区
建表方式二:
  create table gfstbl1 like gfstbl;只是创建表结构
建表方式三:
 create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl; 
  会创建相应的表结构,并且插入数据,相当于完整的赋值
加载数据:
load data local inpath '/root/gfs.txt' into table gfstbl;
查看表描述信息:
DESCRIBE [EXTENDED|FORMATTED] table_name
EXTENDED极简的方式显示
FORMATTED格式化方式来显示
DESCRIBE EXTENDED gfstbl;默认就是EXTENDED
DESCRIBE FORMATTED gfstbl;
插入数据的其他方式:
插入数据的方式:
	1insert 新数
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值