HIVE入门—初尝Create Table

最新推荐文章于 2023-12-13 14:21:39 发布

hugh_wangp

最新推荐文章于 2023-12-13 14:21:39 发布

阅读量3.5k

点赞数

分类专栏： HIVE 文章标签： table primitive oracle string 文档存储

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hugh_wangp/article/details/6434956

版权

HIVE 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

HIVE的create table的官方详细文档请参看：http://wiki.apache.org/hadoop/Hive/LanguageManual

本文根据官方文档提供的例子，通过实践较详细地介绍create table的功能。

由于本人也是新手，深入的功能没有涉猎，请大牛们帮忙补充。谢谢！

CREATE TABLE page_view ( viewTime INT ,userid BIGINT ,page_url STRING ,referrer_url STRING ,friends ARRAY<BIGINT> ,properties MAP<STRING, STRING> ,ip STRING COMMENT 'IP Address of the User' ) COMMENT 'This is the page view table' PARTITIONED BY (dt STRING ,country STRING COMMENT 'visitor country') CLUSTERED BY (userid) SORTED BY (viewTime DESC) INTO 32 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '1' COLLECTION ITEMS TERMINATED BY '2' MAP KEYS TERMINATED BY '3' LINES TERMINATED BY '4' STORED AS SEQUENCEFILE AS SELECT;

常用的建表语句的元素如上所示：

HIVE支持的数据类型(data TYPE)

1. primitive_type

TINYINT --1字节整型

SMALLINT --2字节整型

INT --4字节整型

BIGINT --8字节整型

BOOLEAN --布尔类型(true/false)

FLOAT --单精度浮点型

DOUBLE --双精度浮点型

STRING --字符串类型

2. array_type

--数组数据可以是HIVE支持的所有类型

ARRAY<data_type>

3. map_type

--key只能是私有类型(primitive_type)，value可以是所有类型数据

MAP<primitive_type, data_type>

4. struct_type

--可支持HIVE的所有类型

STRUCT<col_name : data_type [COMMENT col_comment], ...>

基本的建表语句和comment不再介绍，和ORACLE基本相似。

如下介绍HQL和ORACLE SQL使用方式不同的部分。

------------------------------------------------------------------------------

PARTITIONED BY (dt STRING ,country STRING COMMENT 'visitor country')

和ORACLE基本类似，用dt和country两个字段作为分区键做分区表。

------------------------------------------------------------------------------

CLUSTERED BY (userid) SORTED BY (viewTime DESC) INTO 32 BUCKETS

把一个分区的数据以userid打散到32个桶中，桶中的数据以viewTime降序排序。

此目的：1.取样，可以取N/32的数据做采样

2.并行，提升效率

------------------------------------------------------------------------------

ROW FORMAT DELIMITED FIELDS TERMINATED BY '1' COLLECTION ITEMS TERMINATED BY '2' MAP KEYS TERMINATED BY '3' LINES TERMINATED BY '4'

HIVE的记录的分隔符可以自己指定。如上指定列之间的分隔符为’1’，ARRAY类型数据的分隔符为’2’，MAP类型数据分隔符为’3’，行(记录)的分隔符为’4’。

------------------------------------------------------------------------------

STORED AS SEQUENCEFILE

数据存储要选择序列化文件格式对数据做压缩，减少存储，提升效率。如果是从本地文件LOAD数据到HIVE的数据表，那么用STORED AS TEXTFILE。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。