自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 使用celery做异步的clickhouse表导出--带去重和任务数控制

使用celery做异步的clickhouse表导出,带任务去重和任务数控制,提供外部访问API。

2024-08-09 07:00:00 527

原创 如何高效处理亿级海量数据-Clickhouse速通(下)

但在少数情况下,如果你要查询的结果不幸分布在了两个不同的part里,那么合并就不会很彻底,也就是相同的主键会出现两个,结果就会出现两条了。其中:sumMap([method], [1]) AS method_Map 这部分的意思是给每个值都设置一个计数值,出现就记为1,sumMap会自动归并相同的key,同一个key对应value累加。一般要使用sumMerge/sumMapMerge 这样的xxxMerge函数来合并统计结果,相应的统计也要使用xxxState的函数进行统计。物化视图是可以逐层叠加的。

2024-08-08 18:30:00 676

原创 如何高效处理亿级海量数据-Clickhouse速通(上)

其实原因也很简单,Clickhouse的创始公司,Yandex,是俄罗斯最大的搜索引擎,其处理的数据也必然都是互联网的数据,我们面对的数据本质上是相同的。这里展示了存储了一天的数据量。SETTINGS index_granularity = 16384 这个是参考了Cloudflare的方案,因为日志量大集中,用较大的粒度可以更好的利用存储和提高压缩比,计算也更快。带来的第一个特性就是压缩特性,因为同一列的数据通常是相似的,因此相比行它们具有更高的压缩比,所以列数据库可以很方便的利用压缩减少存储占用。

2024-08-07 07:00:00 1064

celery-unique.py

对同样的任务参数进行redis里去重、查看任务状态和限制任务数的celery组件

2024-08-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除