kudu大量数据更新_Kudu入门指南(1)

d37e3c71e1460b2fa3e2dacaec1eaed0.png

A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage layer to enable fast analytics on fast data.

数据模型

Kudu 群集存储的表与关系 (SQL) 数据库中的表一样。表可以像二进制和 一样简单,也可以像几百个不同的强类型属性一样复杂。keyvalue

就像 SQL 一样,每个表都有一个或多个列。这可能是单个列(如唯一的用户标识符)或复合键(如计算机时间序列数据库的元组)。行可以通过主键有效地读取、更新或删除。PRIMARY KEY(host, metric, timestamp)

Kudu 的简单数据模型使移植旧应用程序或构建新应用程序变得轻松:无需担心如何将数据编码到二进制 Blob 中,也无需了解一个充满难以解释的 JSON 的巨大数据库。表是自描述的,因此您可以使用标准工具(如 SQL 引擎或 Spark)来分析数据

低延迟随机访问

与其他大数据分析存储不同,Kudu 不仅仅是一个文件格式。它是一个实时存储系统,支持对单个行的低延迟毫秒级访问

Hadoop 生态系统集成

Kudu 旨在适应 Hadoop 生态系统,将其与其他数据处理框架集成非常简单。您可以使用 Java 客户端从实时数据源流式传输数据,然后在到达时使用 Spark、Impala 或 MapReduce 立即处理数据。您甚至可以透明地将存储在其他 Hadoop 存储(如 HDFS 或 HBase)中的数据加入 Kudu 表。

超快柱存储

与大多数现代分析数据存储一样,Kudu 在内部按列而不是按行来组织数据。列存储允许有效的编码和压缩。例如,只有几个唯一值的字符串字段每行存储只能使用几个位。借助运行长度编码、差分编码和矢量化位打包等技术,Kudu 在读取数据时速度与存储数据时一样具有空间效率。

列存储还大大减少了为分析查询提供服务所需的数据 IO 量。使用惰性数据物化和谓词下拉等技术,Kudu 可以在数秒内对数十亿行和 TB 的数据执行向下钻取和针对式查询。

分布和容错

为了扩展到大型数据集和大型群集,Kudu 将表拆分为称为平板电脑的较小单位。此拆分可以基于每个表进行配置,以基于哈希、范围分区或组合。这使操作员能够轻松地在分析工作负载的并行性与更多在线工作负载的高并发性之间进行权衡。

为了保证您的数据的安全和随时可用,Kudu 使用Raft共识算法复制给定平板电脑的所有操作。Raft 与 Paxos 一样,可确保在响应客户端请求之前,每个写入都至少由两个节点保持,确保不会因计算机故障而丢失任何数据。当计算机发生故障时,副本会在几秒钟内重新配置自身,以保持极高的系统可用性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值