clickhouse 大表数据归档处理解决办法

最新推荐文章于 2024-08-03 03:12:28 发布

奇舞周刊

最新推荐文章于 2024-08-03 03:12:28 发布

阅读量1.6k

点赞数 21

文章标签： clickhouse 数据库 oracle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiwoo_weekly/article/details/136335325

版权

针对数据量不断增长的问题，本文介绍了ClickHouse中处理大表数据的三种策略：分区、分表和冷热数据归档。推荐采用冷热数据归档方案，将热数据保留在default库，冷数据归档到archive库，利用复制表引擎和分布式表提高查询效率。

摘要由CSDN通过智能技术生成

本文作者为 360 奇舞团前端开发工程师李彬

一、需求场景

基于目前项目在各个应用上的数据采集，尤其是性能监控上的采集，数据量越来越大，例如pv数据的采集表三个月的数据量已经在3亿+，数据量小的也有几百万，但是目前的常用的查询需求只用查询最近30内的数据，故此，考虑设计一种方案，可以将表中的数据维持在最近1个月上（视为热数据），之前的数据（视为冷数据）做归档处理，但是偶尔可能也会用来查询分析。

二、常见的大表数据处理办法

数据表分区：大多数数据库支持表分区，可以将大表分成多个小表（分区），每个分区在物理上可以作为一个独立的表进行处理。你可以根据数据的访问频率将数据分配到不同的分区，例如，将最近的数据放在一个高性能的存储设备上，将旧的数据放在一个低成本的存储设备上。

为什么要分区：表分区可以在区间内查询对应的数据，降低查询范围并且索引分区也可以进一步提高命中率，提升查询效率

分区是指将一个表的数据按照条件分布到不同的文件上面，未分区前都是存放在一个文件上面的，但是它还是指向的同一张表，只是把数据分散到了不同文件而已。

我们首先看一下分区有什么优缺点：

表分区有什么好处？

与单个磁盘或文件系统分区相比，可以存储更多的数据。
对于那些已经失去保存意义的数据，通常可以通过删除与那些数据有关的分区，很容易地删除那些数据。相反地，在某些情况下，添加新数据的过程又可以通过为那些新数据专门增加一个新的分区，来很方便地实现。
一些查询可以得到极大的优化，这主要是借助于满足一个给定WHERE语句的数据可以只保存在一个或多个分区内，这样在查找时就不用查找其他剩余的分区。因为分区可以在创建了分区表后进行修改，所以在第一次配置分区方案时还不曾这么做时，

最低0.47元/天解锁文章

关注

21
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
clickhouse 大表数据归档处理解决办法

本文作者为 360 奇舞团前端开发工程师李彬一、需求场景基于目前项目在各个应用上的数据采集，尤其是性能监控上的采集，数据量越来越大，例如pv数据的采集表三个月的数据量已经在3亿+，数据量小的也有几百万，但是目前的常用的查询需求只用查询最近30内的数据，故此，考虑设计一种方案，可以将表中的数据维持在最近1个月上（视为热数据），之前的数据（视为冷数据）做归档处理，但是偶尔可能也会用来查询分析。二、常...
复制链接

扫一扫

奇舞周刊 CSDN认证博客专家 CSDN认证企业博客

码龄5年

448: 原创

1万+: 周排名

3223: 总排名

184万+: 访问

: 等级

8694: 积分

1205: 粉丝

1265: 获赞

153: 评论

3111: 收藏

私信

关注

热门文章

分类专栏

浏览器 2篇

最新评论

异步难题：前端并发控制全解析
佳人士: 您好方法三按照您的代码来直接是死循环了该怎么改下呢[code=javascript] function gets(ids, max) { return new Promise((resolve) => { const res = []; let loadcount = 0; let curIndex = 0; function load(id, index) { return get(id).then( (data) => { loadcount++; console.log('请求次数--------------', loadcount) if (loadcount === ids.length) { res[index] = data; resolve(res); console.log('res--------', res); } else { curIndex++; load(ids[curIndex]); } }, (err) => { res[index] = err; loadcount++; curIndex++; load(ids[curIndex]); } ); } for (let i = 0; i < max && i < ids.length; i++) { curIndex = i; load(ids[i], i); } }); } gets([1,2,3,4,5,6,7,8,9], 3) [/code]
Chroma + Ollama 搭建本地RAG应用
mutung: Chroma怎么配置呢一直报错pydantic_core._pydantic_core.ValidationError: 5 validation errors for Settings clickhouse_host Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type clickhouse_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_host Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_http_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visit https://errors.pydantic.dev/2.8/v/string_type chroma_server_grpc_port Input should be a valid string [type=string_type, input_value=None, input_type=NoneType] For further information visi
CSS 实现多行文本“展开收起”
视觉CG: css是世界上最难的语言
浅析 VSCode 代码高亮实现原理
weixin_43657234: 写的太好了👍👍👍👍👍👍👍
零基础理解 ESLint 核心原理
畅coder: 写的很好呀

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。