Parquet
文章平均质量分 61
Mike_H
这个作者很懒,什么都没留下…
展开
-
Parquet_2. 在 Impala/Hive 中使用 Parquet 格式存储数据
在之前我们已经介绍过在 Hive 中使用 Avro,Parquet 格式来存储数据。今天我们将介绍一下如何在 Impala中使用 Parquet 格式。1. 跟 Hive 中一样,我们在创建表的时候可以通过 STORED AS PARQUET 语句来指定文件的存储格式。CREATE TABLE stocks_parquet LIKE stocks STORED AS PARQUET原创 2015-12-03 03:04:31 · 13814 阅读 · 0 评论 -
Parquet_7. 通过命令行来读取 Parquet 文件 -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:56:08 · 3227 阅读 · 0 评论 -
Parquet_10. Spark & Parquet -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-07 00:02:42 · 501 阅读 · 0 评论 -
Parquet_6. 在Impala表中使用 Parquet 格式
在Impala表中使用 Parquet 格式 :翻译原文:http://www.cloudera.com/content/www/en-us/documentation/archive/impala/2-x/2-1-x/topics/impala_parquet.html参考路径:http://my.oschina.net/weiqingbin/blog/194324201翻译 2015-12-06 23:53:57 · 3159 阅读 · 0 评论 -
Parquet_5. SequenceFile vs ORC File vs Parquet File -- 待完善
本节将跟大家探讨一下 SequenceFile 和 ORC File 和 Parquet File的区别与联系具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:44:01 · 2068 阅读 · 0 评论 -
Parquet_4. 列式存储总结 -- 待完善
整理于》Columnar storage具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:41:07 · 623 阅读 · 0 评论 -
Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
本节将跟大家讨论一下如何在 Impala,Hive,Pig,MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:39:26 · 1110 阅读 · 0 评论 -
Hive_10. Hive中常用的 SerDe 和 当前社区的状态
最近在 Google 上看到一篇在 Hive 中利用正则表达式来自定义反序列化处理文本文件。百度后发现这块知识目前还没有人系统的总结一下。所以我就不才把之前记录的资料跟大家分享一下:SerDe 是Serializer 和 Deserializer 的简称。它是 Hive用来处理记录并且将它们映射到 Hive 表中的字段数据类型。为了更好的阐述使用 SerDe 的场景,我们需要了解一下 Hi原创 2015-12-03 15:32:49 · 11619 阅读 · 1 评论 -
Parquet_8. MapReduce & Parquet -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:57:51 · 1415 阅读 · 0 评论 -
Avro技术应用_7. 将 Avro 数据读写到一个 Parquet 文件中 -- 待完善
本文将跟大家探讨一下 Avro 与 Parquet 的关系及区别。以及如何将 Avro 数据写入到一个 Parquet 文件中。具体内容将会在后续进行完善,敬请期待:原创 2015-12-06 09:12:00 · 1041 阅读 · 0 评论 -
Parquet_1. 使用谓词下推和映射来优化 Job
Github 源码:https://github.com/Hanmourang原创 2015-12-03 02:15:22 · 2615 阅读 · 0 评论 -
Hadoop 过滤,映射,谓词下推基本概念
本文中涉及的源码地址:https://github.com/Hanmourang/hiped2/blob/master/src/main/java/hip/ch6/joins/FilterProjection.java今天想跟大家讨论一下以下几个概念:Filter , Projections, 和 Puchdowns。1. Filter(过滤) 和 Project(映射) 在传统的原创 2015-12-02 14:22:58 · 8619 阅读 · 0 评论 -
Hive_1. 数据存储 & 压缩
Github 源码:https://github.com/Hanmourang原创 2015-11-29 18:53:54 · 2912 阅读 · 0 评论 -
Hive 数据倾斜 (Data Skew) 总结
转载本篇文章主要是为了介绍接下来的 Hive Join 优化 和 Parquet 谓词下推功能。原文地址 : http://www.mamicode.com/info-detail-500353.html倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾转载 2015-12-02 14:57:07 · 6195 阅读 · 0 评论 -
Hadoop 列式存储引擎
相比传统的行式存储引擎,列式存储引擎具有更高的压缩比,更少的IO操作而备受青睐(注:列式存储不是万能高效的,很多场景下行式存储仍更加高效),尤其是在数据列(column)数很多,但每次操作仅针对若干列的情景,列式存储引擎的性价比更高。在互联网大数据应用场景下,大部分情况下,数据量很大且数据字段数目很多,但每次查询数据只针对其中的少数几行,这时候列式存储是极佳的选择,目前在开源实现中,最有名的列原创 2015-12-01 15:13:25 · 1606 阅读 · 0 评论 -
Parquet_11. Spark: DataFrames 和 Parquet -- 待完善
具体内容将会在后续进行完善,敬请期待原创 2015-12-07 00:03:40 · 457 阅读 · 0 评论