kudu大量数据更新_Kudu入门指南（1）

最新推荐文章于 2024-08-10 05:30:04 发布

李首良

最新推荐文章于 2024-08-10 05:30:04 发布

阅读量1.8k

点赞数

文章标签： kudu大量数据更新

本文链接：https://blog.csdn.net/weixin_35838394/article/details/112415750

版权

Apache Kudu 是 Hadoop 生态系统的新成员，提供低延迟随机访问和列存储，适合实时分析。Kudu 的数据模型类似 SQL，支持高效的数据压缩和分布容错。它易于与 Hadoop 其他组件集成，适用于需要快速数据分析和更新的场景。不过，Kudu 也有一些限制，如仅允许主键的范围分区等。

摘要由CSDN通过智能技术生成

A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage layer to enable fast analytics on fast data.

数据模型

Kudu 群集存储的表与关系 (SQL) 数据库中的表一样。表可以像二进制和一样简单，也可以像几百个不同的强类型属性一样复杂。keyvalue

就像 SQL 一样，每个表都有一个或多个列。这可能是单个列(如唯一的用户标识符)或复合键(如计算机时间序列数据库的元组)。行可以通过主键有效地读取、更新或删除。PRIMARY KEY(host, metric, timestamp)

Kudu 的简单数据模型使移植旧应用程序或构建新应用程序变得轻松：无需担心如何将数据编码到二进制 Blob 中，也无需了解一个充满难以解释的 JSON 的巨大数据库。表是自描述的，因此您可以使用标准工具(如 SQL 引擎或 Spark)来分析数据

低延迟随机访问

与其他大数据分析存储不同，Kudu 不仅仅是一个文件格式。它是一个实时存储系统，支持对单个行的低延迟毫秒级访问

Hadoop 生态系统集成

Kudu 旨在适应 Hadoop 生态系统，将其与其他数据处理框架集成非常简单。您可以使用 Java 客户端从实时数据源流式传输数据，然后在到达时使用 Spark、Impala 或 MapReduce 立即处理数据。您甚至可以透明地将存储在其他 Hadoop 存储(如 HDFS 或 HBase)中的数据加入 Kudu 表。