Hive常用库表操作及知识汇总

本文介绍了Apache Parquet的列式存储优势,包括数据仓库列式存储的特点,如降低IO数据量、压缩编码和向量运算。同时,详细列举了Hive中的各种操作,如插入字段、修改字段、删除分区、复制表结构和数据等,并提供了时间戳转换和分位数计算的示例。
摘要由CSDN通过智能技术生成

背景

数据仓库列式存储(parquet)

parquet是面向分析型业务的列式存储格式,是一种支持嵌套结构的存储格式,并且使用了列式存储的方式提升查询性能。
无论数据处理框架,数据模型或编程语言的选择如何,Apache Parquet都是Hadoop生态系统中任何项目可用的列式存储格式。

特点:
  1. 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。
  2. 压缩编码可以降低磁盘存储空间。。
  3. 只读取需要的列,支持向量运算,能够获取更好的扫描性能。
    在取数时避免select *全局扫描,select需要读取的列,通过子查询而非全表join。
    一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。
    header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。
    文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息,schema信息、key-value paris以及所有block中的metadata信息。
    footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。

操作

1. 插入字段
alter table order.info
add columns(
order_no string comment ‘’,
type string comment ‘’
) cascade;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值