hive分区-连接spark

最新推荐文章于 2024-04-23 08:13:30 发布

w605771262

最新推荐文章于 2024-04-23 08:13:30 发布

阅读量558

点赞数 1

分类专栏： kc

本文链接：https://blog.csdn.net/w605771262/article/details/80402884

版权

摘要由CSDN通过智能技术生成

有分区可以变快，便于查找。
1.创建表分区、分桶
CREATE TABLE par_table(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')#注释
COMMENT 'This is the page view table'
PARTITIONED BY(date STRING, pos STRING)#分区
CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS#分桶，排序，分成32个桶
ROW FORMAT DELIMITED#
   FIELDS TERMINATED BY '\t'#字段以tab分割
   lines terminated by '\n'#行之间是断行
STORED AS SEQUENCEFILE#以压缩文件形式保存
LOCATION 'user/hadoop/';#保存路径地址
2、create EXTERNAL table();创建外部表
3、复制一个空表
    CREATE TABLE empty_key_value_store
　　LIKE key_value_store;（旧表）
4.正则显示表
SHOW TABLES '.*s';最后一个是s
5.表添加一列：
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);#列名，加类型
6，增加分区
ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ]
7、创建视图
CREATE VIEW [IF NOT EXISTS] view_name
8、hive不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。
9LOAD DATA [LOCAL] INPATH '/home/hadoop/' OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 ...)
本地复制
LOAD DATA  INPATH '/user/hadoop/u.data' OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 ...)
移动
10.元数据
元数据是用来描述数据的数据。（数据属性）
11.将查询结果插入hive表中
INSERT OVERWRITE TABLE tablename1 PARTITION (partcol1=val1, partcol2=val2 ...) select_statement1 FROM from_statement
或者是：
from 旧表名  a(别名）  insert overwrite table 新表名 select * w

最低0.47元/天解锁文章

w605771262

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive分区-连接spark

有分区可以变快，便于查找。1.创建表分区、分桶CREATE TABLE par_table(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User')#注释 COMMENT 'This is the page view t...
复制链接

扫一扫