Parquet_6. 在Impala表中使用 Parquet 格式

在Impala表中使用 Parquet 格式 :

2014-01-20 12:23
Impala 帮助你创建、管理、和查询 Parquet 表。Parquet 是一种面向列的二进制文件格式,设计目标是为 Impala 最擅长的大规模查询类型提供支持(Parquet is a column-oriented binary file format intended to be highly efficient for the types of large-scale queries that Impala is best at)。Parquet 对于查询扫描表中特定的列特别有效,例如查询一个包含许多列的"宽"表,或执行需要处理列中绝大部分或全部的值的如 SUM(),AVG() 等聚合操作,每个数据文件包含行集(行组)的值。在数据文件里,每一列的值都被重组,以便他们相邻,从而对这些列的值进行良好的压缩。针对 Parquet 表的查询可以快速并最小 I/O 的从任意列获取并分析这些数据。

在 Impala 中创建 Parquet 表

请使用类似下面的命令,创建名为 PARQUET_TABLE_NAME 并使用 Parquet 格式的表,请替换为你自己的表名、列名和数据类型:

[impala-host:21000] > create table parquet_table_name(x INT, y STRING) STORED AS PARQUET;
  Note: 之前,STORED AS 子句需要使用 PARQUETFILE 关键字。在 Impala 1.2.2 及以上版本,可以使用 STORED AS PARQUET。建议新的代码使用 PARQUET 关键字。

或者,克隆现有表的列名和数据类型:

[impala-host:21000] > create table parquet_table_name LIKE other_table_name STORED AS PARQUET;

当创建了表之后,请使用类似下面的命令插入数据到表中,请再次使用你自己的表名:

[impala-host:21000] > insert overwrite table parquet_table_name select * from other_table_name;

假如 Parquet 表具有与其他表不同数量的列或不同的列名,请在对其他表的 SELECT 语句中指定列名而不是使用 * 来代替。


在 Impala 中创建 Parquet 表

根据原始数据是否已经在 Impala 表中,或者在 Impala 之外存在原始数据文件,来选择下面的技术加载数据到 Parquet 表里。

假如你的数据已经在 Impala 或 Hive 表里,可能是在不同的文件格式或分区模式下,你可以直接使用 Impala INSERT...SELECT 语法传输这些数据到 Parquet 表。你可以在同一个 INSERT 语句中,对数据执行转换、过滤、重新分区,以及其他类似操作。参见 Snappy and GZip Compression for Parquet Data Files 了解一些演示如何插入数据到 Parquet 的例子。

当插入到分区表中,特别是使用 Parquet 文件格式的,你可以在 INSERT 语句中包含一个提示(hint)以减少同时写入 HDFS 文件的数量,以及为不同的分区保存数据提供的 1GB 内存缓存的个数(and the number of 1GB memory buffers holding data for individual partitions)。请将 hint 关键字 [SHUFFLE]/[N

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值