Hive之数据存储

最新推荐文章于 2023-03-26 08:17:12 发布

weixin_34409703

最新推荐文章于 2023-03-26 08:17:12 发布

阅读量245

点赞数

文章标签：大数据数据库

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。

其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External Table，Partition，Bucket。

1）表table：一个表就是hdfs中的一个目录

2）区Partition：表内的一个区就是表的目录下的一个子目录

3）桶Bucket：如果有分区，那么桶就是区下的一个单位，如果表内没有区，那么桶直接就是表下的单位，桶一般是文件的形式。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的，每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如，一个表 pvs，它在 HDFS 中的路径为：/wh/pvs，其中，wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录，所有的 Table 数据（不包括 External Table）都保存在这个目录中。
Partition 对应于数据库中的 Partition 列的密集索引，但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在对应的目录中。例如：pvs 表中包含 ds 和 city 两个 Partition，则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为：/wh/pvs/ds=20090801/ctry=US；对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为；/wh/pvs/ds=20090801/ctry=CA。表是否分区，如何添加分区，都可以通过Hive-QL语言完成。通过分区，即目录的存放形式，Hive可以比较容易地完成对分区条件的查询。
Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/wh/pvs/ds=20090801/ctry=US/part-00020 。桶是Hive的最终的存储形式。在创建表时，用户可以对桶和列进行详细地描述。
External Table 指向已经在 HDFS 中存在的数据，可以创建 Partition。它和 Table 在元数据的组织上是相同的，而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。
External Table 只有一个过程，加载数据和创建表同时完成（CREATE EXTERNAL TABLE ……LOCATION），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除

weixin_34409703

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive之数据存储

首先，Hive 没有专门的数据存储格式，也没有为数据建立索引，用户可以非常自由的组织 Hive 中的表，只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。其次，Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：Table，External Table，Partition，Bucket。 1）表table：一个...
复制链接

扫一扫

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄8年

154: 原创

-: 周排名

-: 总排名

155万+: 访问

: 等级

9492: 积分

1万+: 粉丝

274: 获赞

36: 评论

1663: 收藏

私信

关注

热门文章

最新评论

七周七语言——Prolog（二）
芙蓉荟蔬汤: 第一个例子应该是 ancestor(X,Y) :- father(X,Z),ancestor(Z,Y)
GWAS | 全基因组关联分析 | PLINK | 实战 | 统计遗传学
weixin_48885434: 博主您好，我用plink进行关联分析时，加入前10个pca作为协变量，结果文件显示beta值和p值都为NA，请问是什么原因呀？
Nodejs如何调用Dll模块
yuanyi正: 装环境都搞死
上传图片到阿里云OSS和获取上传图片的外网url的步骤
大圣-Alec: String name = random.nextInt(10000) + System.currentTimeMillis() + substring; try { InputStream inputStream = file.getInputStream(); this.uploadFile2OSS(inputStream, name); return name; } catch (Exception e) { throw new ImgException("图片上传失败"); } 返回这个name 确定可以？
PyShark入门(1)：简介
麦兜兒: 请问如何保存为csv文件呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。