hive分区-连接spark

有分区可以变快,便于查找。1.创建表分区、分桶CREATE TABLE par_table(viewTime INT, userid BIGINT,     page_url STRING, referrer_url STRING,     ip STRING COMMENT 'IP Address of the User')#注释 COMMENT 'This is the page view t...
摘要由CSDN通过智能技术生成
有分区可以变快,便于查找。
1.创建表分区、分桶
CREATE TABLE par_table(viewTime INT, userid BIGINT,
     page_url STRING, referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User')#注释
 COMMENT 'This is the page view table'
 PARTITIONED BY(date STRING, pos STRING)#分区
 CLUSTERED BY(userid) SORTED BY(viewTime) INTO 32 BUCKETS#分桶,排序,分成32个桶
 ROW FORMAT DELIMITED#
   FIELDS TERMINATED BY '\t'#字段以tab分割
   lines terminated by '\n'#行之间是断行
STORED AS SEQUENCEFILE#以压缩文件形式保存
LOCATION 'user/hadoop/';#保存路径地址
2、create EXTERNAL table();创建外部表
3、复制一个空表
    CREATE TABLE empty_key_value_store
  LIKE key_value_store;(旧表)
4.正则显示表
SHOW TABLES '.*s';最后一个是s
5.表添加一列:
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);#列名,加类型
6,增加分区
ALTER TABLE table_name ADD [IF NOT EXISTS] partition_spec [ LOCATION 'location1' ] 
7、创建视图
CREATE VIEW [IF NOT EXISTS] view_name
8、hive不支持update操作。数据是以load的方式加载到建立好的表中。数据一旦导入就不可以修改。
9LOAD DATA [LOCAL] INPATH '/home/hadoop/' OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 ...)
本地复制
LOAD DATA  INPATH '/user/hadoop/u.data' OVERWRITE INTO TABLE tablename PARTITION (partcol1=val1, partcol2=val2 ...)
移动
10.元数据
元数据是用来描述数据的数据。(数据属性)
11.将查询结果插入hive表中
INSERT OVERWRITE TABLE tablename1 PARTITION (partcol1=val1, partcol2=val2 ...) select_statement1 FROM from_statement
或者是:
from 旧表名  a(别名)  insert overwrite table 新表名 select * w
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值