Apache Arrow 内存数据

最新推荐文章于 2023-11-18 16:28:14 发布

aiwuzhi12

最新推荐文章于 2023-11-18 16:28:14 发布

阅读量2k

点赞数 1

本文链接：https://blog.csdn.net/aiwuzhi12/article/details/54891011

版权

Apache Arrow 是一个跨平台的内存数据层，旨在加速大数据分析。它提供了列式内存数据格式，减少序列化和反序列化的开销，提高性能。Arrow 支持多种编程语言，并被多个开源项目如 Spark、Drill 等采用，促进系统间的数据无缝链接。

摘要由CSDN通过智能技术生成

1.概述

　　Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。

2.内容

　　现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩展性和性能。过去开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具包含了数据分析的各个层面，例如列式存储格式（Parquet，ORC），内存计算模型（Drill，Spark，Impala 和 Storm）以及其强大的 API 接口。而 Arrow 则是最新加入的一员，它提供了一种跨平台应用的内存数据交换格式。

　　在数据快速增长和复杂化的情况下，提高大数据分析性能一个重要的途径是对列式数据的设计和处理。列式数据处理借助了向量计算和 SIMD 使我们可以充分挖掘硬件的潜力。而 Apache Drill 其大数据查询引擎无论是在硬盘还是内存中数据都是以列的方式存在的，而 Arrow 就是由 Drill 中的 Value Vector 这一数据格式发展而来。此外，Arrow 也支持关系型和动态数据集。

　　Arrow 的诞生为大数据生态带来了很多可能性，有了 Arrow 作为今后标准数据交换格式，各个数据分析的系统和应用之间的交互性可以说是揭开了新的篇章。过去大部分的 CPU 周期都花在了数据的序列化与反序列化上，现在我们则能够实现不同系统之间数据的无缝链接。这意味着使用者在不同系统结合时，不用在数据格式上话费过多的时间。