Hive读时模式和写时模式的区别是什么?

前言

本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!

本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系

正文

模式( schema )指的是数据库的表结构,即数据表中包含的列以及相应的数据类型。

在传统数据库中,数据在导入表的时候就会验证模式,只有在模式符合时才能成功导入。

这种在数据写入时验证模式的方式称为写时模式( schema on write )。

Hive 采取的是另一种方式,即在数据导入时并不验证模式,而只在査询时才验证,称为读时模式( schema on read )这两种方式各有利弊。

读时模式

读时模式在数据导入时,不需要将输入数据进行读取、解析以及序列化成数据库的内部存储格式。

整个数据导入过程只是将数据文件复制或移动到指定位置。

同时,读时模式也更灵活,对于同一个数据文件,可以施加多种不同的模式,用于不同的分析任务。

Hive 中的外部表即支持这一特性。

写时模式

而写时模式的数据查询效率较高,因为数据库可以在一些列上做索引,并在数据存储格式上做优化。

然而,写时模式的缺点是数据导入的时间较长。

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值