Hive常用库表操作及知识汇总

最新推荐文章于 2024-10-11 10:09:32 发布

Elys_sky

最新推荐文章于 2024-10-11 10:09:32 发布

阅读量267

点赞数

分类专栏：大数据文章标签： hadoop hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Elys_sky/article/details/104048690

版权

本文介绍了Apache Parquet的列式存储优势，包括数据仓库列式存储的特点，如降低IO数据量、压缩编码和向量运算。同时，详细列举了Hive中的各种操作，如插入字段、修改字段、删除分区、复制表结构和数据等，并提供了时间戳转换和分位数计算的示例。

摘要由CSDN通过智能技术生成

背景

数据仓库列式存储（parquet）

parquet是面向分析型业务的列式存储格式，是一种支持嵌套结构的存储格式，并且使用了列式存储的方式提升查询性能。
无论数据处理框架，数据模型或编程语言的选择如何，Apache Parquet都是Hadoop生态系统中任何项目可用的列式存储格式。

特点：

可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。
压缩编码可以降低磁盘存储空间。。
只读取需要的列，支持向量运算，能够获取更好的扫描性能。
在取数时避免select *全局扫描，select需要读取的列，通过子查询而非全表join。
一个Parquet文件是由一个header以及一个或多个block块组成，以一个footer结尾。
header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。
文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息，schema信息、key-value paris以及所有block中的metadata信息。
footer中最后两个字段为一个以4个字节长度的footer的metadata，以及同header中包含的一样的PAR1。

操作

1. 插入字段
alter table order.info
add columns(
order_no string comment ‘’,
type string comment ‘’
) cascade;

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。