分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据

最新推荐文章于 2024-07-05 10:23:59 发布

为为少

最新推荐文章于 2024-07-05 10:23:59 发布

阅读量503

点赞数

文章标签：分布式 java python mysql 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/o__cc/article/details/123588398

版权

本文介绍了如何使用 Citus 扩展现有的时间序列数据，通过自动创建分区、使用列式存储归档以及将行分区归档到列式存储，以提高查询效率和数据过期速度。这种方法适用于大多数查询只访问最近数据的场景，并展示了如何在分布式环境中结合 PostgreSQL 的声明性表分区。

摘要由CSDN通过智能技术生成

在时间序列工作负载中，应用程序(例如一些实时应用程序查询最近的信息，同时归档旧信息。

https://docs.citusdata.com/en/v10.2/sharding/data_modeling.html#distributing-by-entity-id

为了处理这种工作负载，单节点 PostgreSQL 数据库通常会使用表分区将一个按时间排序的大数据表分解为多个继承表，每个表包含不同的时间范围。

https://www.postgresql.org/docs/current/static/ddl-partitioning.html

将数据存储在多个物理表中会加速数据过期。在单个大表中，删除行会产生扫描以查找要删除的行，然后清理清空空间的成本。另一方面，删除分区是一种与数据大小无关的快速操作。这相当于简单地删除磁盘上包含数据的文件。

将数据存储在多个物理表中会加快数据过期的速度。在一个大表中，删除行需要扫描以找到要删除的行，然后清空空的空间。另一方面，删除分区是一种与数据大小无关的快速操作。这相当于简单地删除磁盘上包含数据的文件。

https://www.postgresql.org/docs/current/static/routine-vacuuming.html

对表进行分区还可以使每个日期范围内的索引更小更快。对最近数据进行的查询很可能对适合内存的 hot 索引进行操作。这加快了读取速度。

插入也有更小的索引要更新，所以它们也更快。

在以下情况下，基于时间的分区最有意义：

大多数查询只访问最近数据的一个非常小的子集
旧数据定期过期(删除/丢弃)

请记住，在错误的情况下，读取所有这些分区对开销的伤害大于帮助。但是，

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分布式 PostgreSQL 集群(Citus)官方示例 - 时间序列数据

在时间序列工作负载中，应用程序(例如一些实时应用程序查询最近的信息，同时归档旧信息。https://docs.citusdata.com/en/v10.2/sharding/data_modeling.html#distributing-by-entity-id为了处理这种工作负载，单节点 PostgreSQL 数据库通常会使用表分区将一个按时间排序的大数据表分解为多个继承表，每个表包...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。