大数据09--Hive表的操作（未整理完）

最新推荐文章于 2024-05-01 02:41:30 发布

KissshotAHUB

最新推荐文章于 2024-05-01 02:41:30 发布

阅读量234

点赞数 1

分类专栏：大数据笔记

本文链接：https://blog.csdn.net/KissshotAHUB/article/details/83314566

版权

大数据笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Hive

Hive表的类型
函数
Hive Shell的常用操作

Hive表的类型

内部表

创建表

CREATE TABLE gfstbl(
  id INT,
  name STRING,
  age INT,
  gfs ARRAY<STRING>,
  address MAP<STRING,STRING>,
  info STRUCT<country:String,province:String,city:String>
)
ROW FORMAT DELIMITED  
FIELDS TERMINATED BY ' ' 
COLLECTION ITEMS TERMINATED BY ','
MAP KEYS TERMINATED BY ':' 
LINES TERMINATED BY '\n';
LOCATION "/test" //可以设置源数据的位置，若不设置默认就在Hive的工作目录区

查看表的描述信息

DESCRIBE [EXTENDED|FORMATTED] table_name;
//EXTENDED;极简的方式显示
//FORMATTED;格式化方式来显示
例
DESCRIBE EXTENDED gfstbl;//默认就是EXTENDED

其他创建表的方式

//只是创建表结构
create table gfstbl1 like gfstbl;

//会创建相应的表结构，并且插入数据
create table gfstbl2 AS SELECT id,name,gfs,address from gfstbl;

插入数据的方式

insert方式

insert into table_name values();

load方式
这种方式实际是将文件剪切粘贴到表的工作目录区中

load data [local] inpath "/路径" into table table_name;

从其他表中查询数据insert到新表中

INSERT INTO TABLE tablename1 
	[PARTITION (partcol1=val1, partcol2=val2 ...)] 
	select_statement1 FROM from_statement;

//习惯写法将from提前
FROM from_statement
INSERT OVERWRITE TABLE tablename1 
 	[PARTITION (partcol1=val1, partcol2=val2 ...) 
	[IF NOT EXISTS]] select_statement1

例
from day_hour_table
insert into rest 
	select count(*) from day_hour_table;

外部表

外部表在删除时只会删除表（即元数据），不会删除hdfs上的源数据

创建表

create external table wc_external 
   (word1 STRING, 
   word2 STRING) 
   ROW FORMAT DELIMITED 
   FIELDS TERMINATED BY ' ' 
   location '/test/external'; 
   //location可加可不加，不加location默认是在hive的工作目录区

关于load操作

创建一个文件并输入符合表的规则的数据，再将这个文件复制到这个表的工作目录区中，查询该表，发现表的数据量增多
用load data将工作目录中的文件再次添加添加到这个表中，发现表的数据量没有增加
将文件复制到hdfs上的其他目录中，再次用load操作添加到表中，发现表中数据量增加，且原目录中的文件消失（即正常load操作，数据被剪切进表文件中）

临时表

创建表
临时表的声明周期是一次会话
进入hive shell 创建一张表，关闭shell后，表丢失
临时表不支持分区
```
create TEMPORARY table ttabc(id Int,name String);
```
关于shell
- 所有shell共有的reql机制
  - read：读
  - evaluate：计算
  - print：打印
  - loop：循环

使用yarn命令干掉某一个application

yarn application -kill job_1540028621068_0006

分区表

静态分区表

动态分区表

分桶表

函数

Hive Shell的常用操作

KissshotAHUB

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据09--Hive表的操作（未整理完）

HiveHive表的类型内部表外部表临时表分区表静态分区表动态分区表分桶表函数Hive Shell的常用操作Hive表的类型内部表创建表CREATE TABLE gfstbl( id INT, name STRING, age INT, gfs ARRAY&amp;lt;STRING&amp;gt;, address MAP&amp;lt;STRING,STRING&amp;gt;, info...
复制链接

扫一扫