hive：建表：普通表外部表分区表桶表

最新推荐文章于 2024-05-10 07:38:43 发布

花和尚也有春天

最新推荐文章于 2024-05-10 07:38:43 发布

阅读量2.4k

点赞数 2

分类专栏： hive 文章标签： hive 普通表外部表外部表

本文链接：https://blog.csdn.net/weixin_38750084/article/details/83547439

版权

本文详细介绍了Hive中的四种表类型：普通表、外部表、分区表和桶表。重点讨论了它们的创建、数据加载与查询方法，以及各类型的特性和应用场景。对于外部表，强调了其在删除时不会删除HDFS上的数据。分区表则允许按指定字段进行数据组织，提高查询效率。桶表通过哈希取值进行数据分布，适合用于抽样查询。最后，通过实例展示了如何创建和使用桶表。

摘要由CSDN通过智能技术生成

内部表：

默认数据格式为text（TEXTFILE）：

CREATE TABLE `ds.ds_ree_t_result_tmp` (
      `workno` int COMMENT '员工工号',
      `employeename` string COMMENT '姓名',
      `amount` string COMMENT '业绩',
      `effectivedate` string COMMENT '生效时间',
      `isleave` string COMMENT '是否离职',
      `leavedate` string COMMENT '离职日期',
      `tag` array<string> COMMENT '标签类型',   --这里指定是个数组类型
      `addtime` string COMMENT '订单生成时间'
);

数据格式为parquet：

CREATE TABLE `dws.test`(
  `source` string COMMENT '来源', 
  `client_id` bigint COMMENT '客户id', 
  `client_name` string COMMENT '客户名称') stored as parquet;

外部表

如果数据已经存在HDFS的'/user/hadoop/warehouse/page_view'上了，如果想创建表，指向这个路径，就需要创建外部表:

CREATE EXTERNAL TABLE page_view(
     viewTime INT, 
     userid BIGINT,
     page_url STRING, 
     referrer_url STRING,
     ip STRING COMMENT 'IP Address of the User',
     country STRING COMMENT 'country of origination')
 COMMENT 'This is the staging page view table'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\054'
 STORED AS TEXTFILE
 LOCATION '/user/hadoop/warehouse/page_view';

创建表，有指定EXTERNAL就是外部表，没有指定就是内部表，内部表在drop的时候会从HDFS上删除数据，而外部表不会删除。

外部表和内部表一样，都可以有分区，如果指定了分区，那外部表建了之后，还要修改表添加分区。

外部表如果有分区，还可以加载数据，覆盖分区数据，但是外部表删除分区，对应分区的数据不会从HDFS上删除，而内部表会删除分区数据。

外部表删除时，不会删除数据，这是与内部表的最大区别，一般80%企业都是外部表。

指定位置，必须在hdfs之上：

自己先创建目录：

文件如果直接放到目录下面去，然后就可以直接查询出来，这样的方式是最快最省事的！

可以先创建表目录再放文件也可以。

分区表：

指定分区字段，以下示例是按月分区（可以多级分区也就是按多个字段分区）：

加载数据：

最低0.47元/天解锁文章

花和尚也有春天

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
hive：建表：普通表外部表分区表桶表

1.普通表普通表的创建，如上所说，不讲了。其中，一个表，就对应一个表名对应的文件。2.外部表 EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，...
复制链接

扫一扫