大数据之hive各种表（二）

最新推荐文章于 2023-08-24 20:08:04 发布

HW_870754395

最新推荐文章于 2023-08-24 20:08:04 发布

阅读量241

点赞数

分类专栏：大数据文章标签：大数据 hive 内、外部表分区分桶

大数据专栏收录该内容

21 篇文章 2 订阅

订阅专栏

大数据之hive各种表（二）

一、外部表和内部表
- 1. 内部表（managed table）
- 2. 外部表（external table）
二、分区表和桶表
- 1. 分区（partioned）
- 2. 分桶（clustered）

一、外部表和内部表

1. 内部表（managed table）

默认创建的是内部表 create table xxx(xx xxx)
存储位置在 hive.metastore.warehouse.dir设置，默认位置 /user/hive/warehouse
导入数据的时候是将文件剪切（移动）到指定位置，即原有路径下文件不再存在
删除表时，数据和元数据都将被删除

2. 外部表（external table）

创建：create external table xxx(xxx)
外部表文件可以在外部系统上，只要有访问权限就可
外部表导入文件时不移动文件，仅仅是添加一个metadata
删除表时，原数据不会被删除
分辨外部表和内部表DESCRIBE FORMATTED table_name
外部表指向的数据发生变化的时候，会自动更新，不用特殊处理

二、分区表和桶表

1. 分区（partioned）

创建分区：partioned by (xxx)
有些时候数据是有组织的，比方按日期/类型等分类，而查询数据的时候也经常只关心部分数据，比方说我只想查2017年8月8号，此时可以创建分区，查询具体某一天的数据时，不需要扫描全部目录，所以会明显优化性能
一个Hive表在HDFS上是有一个对应的目录来存储数据，普通表的数据直接存储在这个目录下，而分区表数据存储时，是再划分子目录来存储的

2. 分桶（clustered）

分桶是相对分区进行更细粒度的划分。分桶将整个数据内容按照某列属性值得hash值进行区分，按照取模结果对数据分桶。如取模结果相同的数据记录存放到一个文件。
桶表也是一种用于优化查询而设计的表类型。
创建桶表时，指定桶的个数、分桶的依据字段，hive就可以自动将数据分桶存储。查询只需要遍历一个桶里的数据或者部分桶，从而提高查询效率。
clustered by (user_id) sorted by(leads_id) into 10 buckets
- clustered by：指根据user_id的值进行哈希后模除分桶的个数，根据得到的结果，确定这行数据分入哪个桶，确保相同user_id的数据放入同一个桶中
- sorted by：是指定桶中的数据以哪个字段进行排序，排序的好处是，在join操作时能获得很高的效率
- into 10 buckets：指分10个桶
- 在HDFS上存储时，一个桶存入一个文件中，这样根据user_id进行查询时，可以快速确定数据存在于哪个桶中，而只遍历一个桶可以提供查询效率

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据之hive各种表（二）

大数据之hive各种表（二）一、外部表和内部表1. 内部表（managed table）2. 外部表（external table）二、分区表和桶表1. 分区（partioned）2. 分桶（clustered）一、外部表和内部表1. 内部表（managed table）默认创建的是内部表 create table xxx(xx xxx)存储位置在 hive.metastore.ware...
复制链接

扫一扫

专栏目录

HW_870754395 CSDN认证博客专家 CSDN认证企业博客

码龄7年

90: 原创

6万+: 周排名

53万+: 总排名

9万+: 访问

: 等级

1826: 积分

46: 粉丝

67: 获赞

16: 评论

310: 收藏

私信

关注

热门文章

分类专栏

python 1篇
数据结构 8篇
剑指offer 55篇
学习笔记 28篇
mysql 2篇
leetcode 1篇
大数据 21篇
数据库 5篇
数据仓库 10篇
JAVA基础 1篇
面试题 1篇

最新评论

解决'ERROR 1406 (22001): Data too long for column 'name' at row 1'
Jillian Chen: 我本来想说时间过去太久了怎么解决的早忘了，但是一看是‘name’和编码的问题，按照经验有三种可能性：1.API调用数据库insert的语句写错了，或者API调用的原中文文本数据中（就是要导入的那堆数据里）没有在中文上加单引号；2.数据库或者数据表的格式没有设置为utf8；3.数据表中‘name’字段占用的空间设置太短了，需要改长一点。第三种情况可能性特别小，你可以仔细检查一下，再想办法修改
解决'ERROR 1406 (22001): Data too long for column 'name' at row 1'
今天快滚去学习: 我也找不到这一句，你现在解决这个问题了吗？
操作型数据库 VS分析型数据库
等你说等我说: 好
导出javadoc就出现java.lang.IllegalArgumentException这个异常
爱Java的球迷: 没有设置这个也不行啊
《剑指offer》刷题——【树】面试题8：二叉树的下一个节点（java实现）
ICElike: 感觉可以直接将中序遍历输出到一个Map,然后直接花费O(1)时间，就可以找到。但就是树太大的话，耗费时间跟空间

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。