创建kudu表_kudu详细架构与入门使用

最新推荐文章于 2024-03-27 17:18:59 发布

187107

最新推荐文章于 2024-03-27 17:18:59 发布

阅读量1.7k

点赞数

文章标签：创建kudu表

本文链接：https://blog.csdn.net/weixin_29494379/article/details/113033562

版权

Kudu是一种分布式列式存储数据库，旨在提供实时写入和更新的同时支持快速数据分析。与HDFS和HBase相比，Kudu弥补了它们在数据更新和实时查询方面的不足。Kudu的基本架构包括Table、Tablet、Tablet Server和Master组件。存储机制中，Tablet由MetaData和RowSet组成，RowSet分为MemRowSet和DiskRowSet，数据以列式存储。Kudu的工作流程包括读取、插入和更新，其中插入和更新涉及WAL日志和DeltMemStore。此外，文章还介绍了如何使用Java API进行Kudu操作，如表创建、数据插入、更新和查询。

摘要由CSDN通过智能技术生成

1、 kudu简介

1.1、kudu是什么？

简单来说:dudu是一个与hbase类似的列式存储分布式数据库。

官方给kudu的定位是:在更新更及时的基础上实现更快的数据分析

1.2、为什么需要kudu？

1.2.1、hdfs与hbase数据存储的缺点

目前数据存储有了HDFS与hbase，为什么还要额外的弄一个kudu呢?

HDFS:使用列式存储格式Apache Parquet，Apache ORC，适合离线分析，不支持单条纪录级别的update操作，随机读写性能差

HBASE:可以进行高效随机读写，却并不适用于基于SQL的数据分析方向，大批量数据获取时的性能较差。

正因为HDFS与HBASE有上面这些缺点，KUDU较好的解决了HDFS与HBASE的这些缺点，它不及HDFS批处理快，也不及HBase随机读写能力强，但是反过来它比HBase批处理快(适用于OLAP的分析场景)，而且比HDFS随机读写能力强(适用于实时写入或者更新的场景)，这就是它能解决的问题。

架构介绍

2.1、基本架构

2.1.1、概念

 Table(表)：一张table是数据存储在kudu的位置。Table具有schema和全局有序的primary key(主键)。Table被分为很多段，也就是tablets.

 Tablet (段)：一个tablet是一张table连续的segment，与其他数据存储引擎或关系型数据的partition相似。Tablet存在副本机制，其中一个副本为leader tablet。任何副本都可以对读取进行服务，并且写入时需要在所有副本对应的tablet server之间达成一致性。

 Tablet server：存储tablet和为tablet向client提供服务。对于给定的tablet，一个tablet server充当leader，其他tablet server充当该tablet的follower副本。只有leader服务写请求，leader与follower为每个服务提供读请求。

 Master：主要用来管理元数据(元数据存储在只有一个tablet的catalog table中)，即tablet与表的基本信息，监听tserver的状态

 Catalog Table: 元数据表，用来存储table(schema、locations、states)与tablet(现有的tablet列表，每个tablet及其副本所处tserver，tablet当前状态以及开始和结束键)的信息。

3、存储机制

3.1 存储结构全景图

3.2、存储结构解析

 一个Table包含多个Tablet，其中Tablet的数量是根据hash或者range进行设置

 一个Tablet中包含MetaData信息和多个RowSet信息

 一个Rowset中包含一个MemRowSet与0个或多个DiskRowset࿰

最低0.47元/天解锁文章

187107

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫