mysql olap 函数_OLAP实时分析之ClickHouse列式存储数据库

最新推荐文章于 2024-06-26 18:58:44 发布

辉萱0623

最新推荐文章于 2024-06-26 18:58:44 发布

阅读量375

点赞数

文章标签： mysql olap 函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42510757/article/details/113909388

版权

ClickHouse是一款由Yandex开源的高性能数据分析数据库，专为大规模数据实时查询设计。其特点包括列式存储、数据压缩、多核心并行处理和分布式处理。适用于OLAP场景，尤其在数据聚合查询方面表现出色。整合方式通常与SQL和现有组件如Druid、Mybatis结合。列式存储在数据分析中能提高效率，减少I/O，适合处理大宽表和复杂统计计算。

摘要由CSDN通过智能技术生成

一、ClickHouse简介

1、基础简介

Yandex开源的数据分析的数据库，名字叫做ClickHouse，适合流式或批次入库的时序数据。ClickHouse不应该被用作通用数据库，而是作为超高性能的海量数据快速查询的分布式实时处理平台，在数据汇总查询方面(如GROUP BY)，ClickHouse的查询速度非常快。

2、数据库特点

(1)列式数据库

列式数据库是以列相关存储架构进行数据存储的数据库，主要适合于批量数据处理和即时查询。

(2)数据压缩

在一些列式数据库管理系统中不是用数据压缩。但是, 数据压缩在实现优异的存储系统中确实起着关键的作用。

(3)数据的磁盘存储

许多的列式数据库只能在内存中工作，这种方式会造成比实际更多的设备预算。ClickHouse被设计用于工作在传统磁盘上的系统，它提供每GB更低的存储成本。

(4)多核心并行处理

大型查询可以以很自然的方式在ClickHouse中进行并行化处理，以此来使用当前服务器上可用的所有资源。

(5)多服务器分布式处理

在ClickHouse中，数据可以保存在不同的shard上，每一个shard都由一组用于容错的replica组成，查询可以并行的在所有shard上进行处理。

(6)支持SQL和索引

ClickHouse支持基于SQL的查询语言，该语言大部分情况下是与SQL标准兼容的。支持的查询包括GROUPBY，ORDERBY，IN，JOIN以及非相关子查询。不支持窗口函数和相关子查询。按照主键对数据进行排序，这将帮助ClickHouse以几十毫秒的低延迟对数据进行特定值查找或范围查找。

(7)向量引擎

为了高效的使用CPU，数据不仅仅按列存储，同时还按向量(列的一部分)进行处理。

(8)实时的数据更新

ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找，数据总是以增量的方式有序的存储在MergeTree中。因此，数据可以持续不断高效的写入到表中，并且写入的过程中不会存在任何加锁的行为。

3、整合方式

基于Druid和Mybatis组件，整合ClickHouse数据库，在用法上和MySQL整合有点区别。

二、数据分析能力

1、OLAP场景特征

· 大多数是读请求

· 数据总是以相当大的批(> 1000 rows)进行写入

· 不修改已添加的数据

· 每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列

· 宽表，即每个表包含着大量的列

· 较少的查询(通常每台服务器每秒数百个查询或更少)

· 对于简单查询，允许延迟大约50毫秒

· 列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节)

· 处理单个查询时需要高吞吐量(每个服务器每秒高达数十亿行)

· 事务不是必须的

· 对数据一致性要求低

· 每一个查询除了一个大表外都很小

· 查询结果明显小于源数据，换句话说，数据被过滤或聚合后能够被盛放在单台服务器的内存中

2、列式数据存储

(1)、行式数据

(2)、列式数据

3、对比分析

分析类查询，通常只需要读取表的一小部分列。在列式数据库中可以只读取需要的数据。数据总是打包成批量读取的，所以压缩是非常容易的。同时数据按列分别存储这也更容易压缩。这进一步降低了I/O的体积。由于I/O的降低，这将帮助更多的数据被系统缓存。

三、列式计算

1、列数数据

行式存储和列式存储，数据在磁盘上的组织结构有着根本不同，数据分析计算时，行式存储需要遍历整表，列式存储只需要遍历单个列，所以列式库更适合做大宽表，用来做数据分析计算。

2、列式计算

在相对庞大的数据分析时，通常会选择生成一张大宽表，并且存放到列式数据库中，为了保证高效率执行，可能会把数据分到不同的库和表中，结构一样，基于多线程去统计不同的表，然后合并统计结果。

基本原理：多线程并发去执行不同的表的统计，然后汇总统计，相对而言统计操作不难，但是需要适配不同类型的统计，比如百分比，总数，分组等，编码逻辑相对要求较高。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。