SequoiaDB v5.2 学习笔记

SequoiaDB v5.2 学习笔记

湖仓一体

什么是“湖仓一体”?

“湖仓一体”的“湖”指数据湖,“仓”指数据仓库,是一种新型的开放式架构,将数据湖与数据仓库两者打通,并融合了数据湖的灵活性和数据仓库的高性能及管理能力。区别于数据仓库,湖仓一体底层具有同数据湖一样支持多种类型(结构化、半结构化和非结构化)的数据,并实现了湖仓的数据间共享;上层可以通过统一封装的接口进行访问,特别地以数据库为基础开发的湖仓一体还支持标准SQL对数据进行访问;可同时支持实时查询和分析,为企业进行数据治理带来了更多的便利性。

为什么要引入湖仓一体?

市场需求

在如今的数字化的时代,数据呈现量大、多样的特点,数据库不仅需要具备面向结构化数据的OLTP数据交易的能力,还需要具备面向多样化数据的实时分析能力。数据湖虽具备存储多样化数据的能力,但对于事务一致化以及实时处理能力有所欠缺;数据仓库则只具备结构化数据的分析处理能力,且无法应对高并发和支持业务敏捷变化的需求。

“数据沼泽”问题亟需解决

“数据沼泽”指的是数据量的剧增,使得数据湖存储了过多数据,导致难以高效地提炼这些海量数据的价值,只有进行数据加工并装载到大数据平台才能解决大规模业务运维、数据治理等问题;而湖仓一体架构则能在根本上避免这一问题的发生。

数字化转型需求

数字化转型的核心要义是挖掘数据的价值,以往众多企业采取建立数据仓库来进行几页数据管理,但由于利用数据仓库来应用数据前需要由数据专家对数据进行挖掘、清洗、建模、分析等复杂工作,且大多数企业缺乏这种能力,导致只能进行一些简单的类似报表等应用;无法释放海量复杂的数据中所蕴涵的价值。

SequoiaDB 如何实现湖仓一体?

现有的三种湖仓一体架构
  1. 基于Hadoop体系的数据湖向湖仓仓库能力扩展(如 Netflix,Uber)

  2. 基于云平台进行架构构建(AWS,阿里云,华为云)

  3. 以数据库技术为基础,自研平台(snowflake,databricks,SequoiaDB)

SequoiaDB

面向客户对湖仓一体架构的不同场景需求,基于 SequoiaDB 湖仓一体分布
式数据库技术为客户实现:

  1. 实时数据湖: 服务于业务数据实时对客查询;基于巨杉数据库自研的SequoiaDB 原生分布式内核,支持多模数据处理, 提供>10000并发连接写的万亿数据实时SQL查询。

  2. 多模数据湖: 服务于对象数据实时对客存取,基于 SequoiaDB 原生分布式数据库,提供非结构化数据处理API、标签管理及检索、异构存储多级缓存等能力,可实现非结构化数据与结构化数据的统一管理。

  3. 实时数仓: 对实时流入的数据进行实时探索(分析、统计、加工)

在这里插入图片描述

SequoiaDB v5.2 四大特性

Join优化 + 微分区列存

Join 优化:
  1. BKA Join 优化
  2. INDEX MERGE 优化
多微分区

多维分区主要是解决之前版本分区存储在数据量快速增长的场景下性能会逐渐下降的问题,主要用于处理既要减少数据访问量,又要提高数据并行计算能力的场景。

SequoiaDB中的分区类型

  1. 数据库分区:用于描述数据在集合与复制组之间的关系
  2. 表分区:用于描述数据在集合与集合之间的关系

多维分区(结合表分区与数据库分区)示意图:
在这里插入图片描述

实例: 账单数据具有很强的时间特性,比如查询某年的账单。针对这一特性可以将时间作为分区键,先对主集合进行表分区,将一年的数据映射到一个子集合上。针对子集合(一年内的数据),以帐号id再进行一次数据库分区,将数据映射到多个数据组上。
在这里插入图片描述

列存

SequoiaDB v5.2之前的版本通过对接SparkStreaming技术实现数据准实时以及批量入湖,SequoiaDB v5.2进一步对接FlinkSQL,实现了流批一体数据入湖,同时对接列存引擎,并会在后续版本提供行列转换,引入列存使得实时分析能力有了显著的提升。

分片并发

在这里插入图片描述

分片并发存储
  1. 数据引擎层

    对象数据写入时,对象数据始终在高速通道中共享并进行压缩,提升数据流通效率

  2. 存储引擎层

    对象数据存入存储引擎层的步骤:

    • 根据分区元数据缓存(无需IO)进行HASH分片,并打包各个分片并发存储到各个存储节点
    • 各分片到达存储节点会再次采用HASH算法实现一跳寻址以及连续空间分配,有效增加IO性能;
可变分区大小

根据对象大小在4KB~4MB之间进行自适应调整分片大小,平衡好并发性能和存储空间利用率,且存储后不再会在后台进行分片合并;

全量数据生命周期管理

根据数据时效,访问要求对数据进行全链路的生命周期管理

在这里插入图片描述

  • 热数据:存储再高配置SSD
  • 温数据:存储再低配置HDD
  • 冷数据:支持同步至第三方数据库以对象数据的方式异构存储

SAC链路监控

  • 监控
    • 性能监控
    • 集群监控
    • 查询监控
    • 死锁检测
    • 会话监控
    • 事务监控
  • 系统管理
  • 数据管理
  • 集群管理
  • 安全管理
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值