![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
软件工程
文章平均质量分 94
ClickHouseDB
这个作者很懒,什么都没留下…
展开
-
Lago - 使用 ClickHouse 扩展事件引擎
本文字数:4540;估计阅读时间:12 分钟作者:Mathew Pregasen本文在公众号【ClickHouseInc】首发本周,我们欢迎来自 Lago 的一篇博客文章,介绍了他们如何使用 ClickHouse 扩展一个事件引擎,并在此过程中将查询速度最高提高了 137 倍!这篇博客文章的原始版本发布在 Github 上。原创 2024-07-26 17:19:21 · 804 阅读 · 0 评论 -
全球最快的 JSON 文件查询工具
虽然这可能导致不同工具之间的结果不同,因为 SQL 并不强制默认顺序,但基准测试的目标是评估用户希望尽快对文件进行采样以及工具避免完全扫描的能力。所以当我第一次看到 Hacker News 上那篇“查询大型 JSON 文件的最快工具是用 Python 编写的”帖子时,我的第一个想法是——“但 clickhouse-local 不是用 Python 编写的”。clickhouse-local 是一个单一的二进制文件,允许你使用 SQL 快速处理本地和远程文件,提供了无数据库的数据库功能。本文字数:1684;原创 2024-06-26 11:22:38 · 905 阅读 · 0 评论 -
ClickHouse 性能测试
例如,当我们发现一个竞争数据库引擎使用 sum 聚合函数完成查询的速度是我们的两倍时,我们测试了几十种 sum 的实现,最终找到了性能最佳的(参见关于此的演讲,俄语)。软件是一个不断变化的有机体,而 ClickHouse 的变化速度非常快——为了解释这一规模,仅在 2021 年 7 月,我们就合并了由 60 位不同作者提交的 319 个拉取请求(实时统计数据在这里)。这个测试有更多的失败模式,而不仅仅是功能测试,更糟糕的是,这些失败有些是定量的,而不是二元的。最近的一次是我们提到的 PR 带来的加速。原创 2024-06-26 11:03:25 · 607 阅读 · 0 评论 -
宣告 adsb.exposed - 基于 ClickHouse 的 ADS-B 航班数据交互式可视化和分析
本文字数:10340;估计阅读时间:26 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!也许你已经听说过 Flight Radar,这个实时航班跟踪地图,跟踪飞机在天空中飞行非常有趣,但在这篇博客文章中,我们将向你介绍更酷炫的东西!!ADS-B(自动相关监视广播)是一种用于广播各种航班数据的无线电协议。原创 2024-06-25 17:35:09 · 573 阅读 · 0 评论 -
如何只用 ClickHouse SQL 实现 K-Means 聚类
本文字数:15474;估计阅读时间:39 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!原创 2024-06-25 16:27:26 · 945 阅读 · 0 评论 -
在 ClickHouse 中使用 Rust 实现超过 2 倍速度提升的哈希
本文字数:2544;估计阅读时间:7 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!原创 2024-06-25 15:04:21 · 823 阅读 · 0 评论 -
ClickHouse vs. Elasticsearch:十亿行数据的较量
在详细展示基准测试结果之前,我们先提供一个简要总结。10 亿行数据集ClickHouse 存储 10 亿行数据集所需的磁盘空间比 Elasticsearch 少 12 倍。聚合查询 ①(执行全数据集聚合)在 ClickHouse 上的运行速度是 Elasticsearch(查询 DSL)的 5 倍。聚合查询 ②(聚合过滤后的数据集)在 ClickHouse 上的运行速度是 Elasticsearch(查询 DSL)的 6 倍。原创 2024-06-25 12:11:15 · 1040 阅读 · 1 评论 -
ClickHouse vs. Elasticsearch: 计数聚合的工作原理
本文字数:7875;估计阅读时间:20 分钟审校:庄晓东(魏庄)原创 2024-05-25 17:51:29 · 1179 阅读 · 0 评论 -
链接物化视图在 ClickHouse 中的应用
在接下来的博客文章中,我们将通过一个实际示例演示如何链式使用物化视图。现在,在运行了一段时间后,我们决定将数据分组并分块为 10 分钟的桶,而不仅仅是 1 分钟的。在处理我们的小数据量时,这是有效的,但是当处理更大的数据时,我们可能需要另一个表,将数据按 10 分钟的间隔分桶存储。换句话说,我应该让聚合状态的物化视图不直接从 Kafka 引擎表中读取数据,而是应该从已经从 Kafka 中提取出的原始事件中读取。现在,我们不再将原始按秒的数据从头开始聚合到 10 分钟的桶中,而是利用了一分钟的桶。原创 2024-05-25 17:07:14 · 920 阅读 · 0 评论 -
数据变更捕获 (CDC):PostgreSQL 与 ClickHouse - 第二部分
我们在之前的博客中提出的端到端架构如下所示。该架构假设用户已经拥有一个运行Kafka Connect框架的Kafka实例。在我们的示例中,我们假设用户正在使用Confluent Cloud来托管Kafka,该服务会自动为事件创建相应的主题。不过,用户也可以选择自行托管Kafka。我们提出的架构将适用于任何能够写入由Debezium生成的事件的摄取管道。原创 2024-04-25 14:28:26 · 1128 阅读 · 2 评论 -
数据变更捕获 (CDC):PostgreSQL 与 ClickHouse - 第一部分
本文字数:13442;估计阅读时间:34 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发。原创 2024-04-25 13:43:35 · 854 阅读 · 1 评论 -
使用ClickHouse和Terraform进行CI/CD
本文字数:11047;估计阅读时间:28 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发。原创 2024-04-25 11:34:13 · 947 阅读 · 0 评论 -
在 ClickHouse 中使用聚合组合器
聚合函数组合器为ClickHouse中的任何数据结构上的分析查询带来了几乎无限的可能性。我们可以为聚合添加条件,对数组元素应用函数,或获取中间状态以以聚合形式存储数据,但仍可用于查询。征稿启示面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。原创 2024-04-25 11:30:45 · 1043 阅读 · 0 评论 -
ANN 向量搜索:基于 SQL 的 LSH 和随机投影
以上在 Python 或任何编程语言中实现起来相对简单。但是,ClickHouse 对于这个任务来说是理想的。我们不仅可以仅使用几行 SQL 定义上述内容,而且我们还将利用 ClickHouse 的所有优势,包括根据元数据进行过滤、聚合以及不受内存限制。在插入新向量时,还需要在插入时计算行的嵌入序列。对于我们的测试数据集,我们将使用来自 Glove 的测试集,其中包含从 840B CommonCrawl 标记中训练的 2.1m 个向量。此集合中的每个向量都有 300 个维度,表示一个单词。原创 2024-04-24 12:09:50 · 707 阅读 · 0 评论 -
使用ClickHouse、Grafana和WarpStream规模化的解决可预测成本的日志留存
以下是 CGW 堆栈在各种日志容量下的每月总成本。18.9880155.57235.5737.9680155.62235.6275.9280155.71235.71151.8480155.89235.89303.6780156.24236.891515.5280158.74238.741433685.43190.85276.28上述成本不包括 OTEL 收集器(或等效物)的成本,我们假设这些收集器将在边缘运行,并且代表着可以忽略的开销。成本比较。原创 2024-04-24 13:36:07 · 886 阅读 · 0 评论 -
使用 Atlas 管理 ClickHouse 的 Schema-as-Code
近年来,随着云资源管理方面的巨大进步,一种名为基础设施即代码(IaC)的方法的出现,管理数据库模式的一种新方法逐渐崭露头角。然而,随着项目和组织规模的增长,这些技术的初始优势开始显露出重要的折衷。在 2010 年代,越来越多的开发者寻求避免架构管理的复杂性,因此倾向于使用无架构的数据库,但这种转变导致了数据一致性和维护方面的挑战随着系统的扩展而出现。所有这些技术都采用更简洁的语法和更大的灵活性,承诺了更快的开发周期和更容易的原型设计,使它们成为初创公司和追求快速市场进入的新项目的首选语言。原创 2024-04-24 14:11:23 · 988 阅读 · 0 评论 -
在 AWS EKS 中通过对 ClickHouse Pod 进行分箱来节省数百万美元
本应安排在同一节点上的两个 ClickHouse pod 却被安排在不同的节点上,导致我们需要更多的 EC2 节点来承载相同数量的 pod,节点的资源利用率降低,并且机群成本更高。Kubernetes 还允许您创建自己的调度器二进制文件,但在我们的情况下这并不是必要的,因为具有 MostAllocated 评分策略的现有 kube-scheduler 镜像已经满足了我们的要求。例如,长时间运行的查询将被中断。为了使我们的资源消耗尽可能高效,我们进行了一项测试,以确定我们的 pod 是如何分配的。原创 2024-04-21 18:19:02 · 764 阅读 · 0 评论 -
MySQL之旅
探讨了为了支持 MySQL 语法所做出的更改。原创 2024-03-17 13:17:48 · 914 阅读 · 0 评论 -
用 LlamaIndex 和 ClickHouse 为Hacker News 和 Stack Overflow 构建聊天机器人
探讨使用 ClickHouse与LlamaIndex的集成来构建一个问答机器人应用程序原创 2024-03-13 15:55:44 · 908 阅读 · 0 评论 -
加速您的ClickHouse查询
ClickHouse 查询处理架构针对实时分析进行了优化,并且具有使查询处理快速的默认设置。原创 2024-03-04 13:55:10 · 1987 阅读 · 0 评论 -
如何执行混合查询?
我们还可以将远程查询的数据与本地ClickHouse中的数据进行连接(join),当与ClickHouse Local一起使用时,我们可以实现一种混合查询。直到最近几个月,我才被这样几个工具改变了我的理解:ClickHouse Local,它允许我们通过CLI运行ClickHouse前端的进程内版本,以及chDB,一个由ClickHouse驱动的嵌入式SQL OLAP引擎。我先编写了一个小Python脚本,从GitHub API下载尽可能多的项目的数据,将每个项目存储在自己的机器上的一个JSON文件中。原创 2024-03-04 13:40:29 · 783 阅读 · 0 评论 -
使用ClickHouse进行SQL动态列选择
ClickHouse的动态列选择功能能在SQL查询中节省大量输入。原创 2024-02-26 21:05:22 · 1122 阅读 · 0 评论 -
ClickHouse迎战十亿行数据的挑战
本月初,Decodable 公司的 Gunnar Morling 提出了一项为期一月挑战,引起了广泛关注 - 编写一个 Java 程序,从一个包含十亿行信息的文本文件中检索温度测量值,并计算每个气象站的最低、平均和最高温度。访问相关的子字符串。然而,当结合我们的 26 秒加载时间时,我们仍然无法超过简单的用 ClickHouse Local 查询。在编写这篇博客时,我发现了 sdkman(https://sdkman.io/jdks),它简化了 Java 的安装过程,适用于那些没有预安装Java的人。原创 2024-02-18 17:20:59 · 873 阅读 · 0 评论 -
线性回归-使用ClickHouse机器学习函数
通过这样做,我们可以发挥 ClickHouse处理大规模数据集的高性能,并减少,甚至完全避免额外编写的代码的需要。我们使用Clickhouse的geoDistance函数来计算给定它们的坐标(纬度和经度)的取件和交付位置之间的距离,同时我们使用Clickhouse的date_diff函数来计算取件和交付之间所经过的时间。我们还使用randUniform函数向数据集添加一个随机生成的训练索引,该索引对于80%的数据设置为1,将用于训练,对于剩余的20%的数据设置为0,将用于测试模型的性能。原创 2024-02-18 17:07:31 · 933 阅读 · 0 评论 -
Goldsky - 使用ClickHouse和Redpanda的黄金标准架构
Goldsky 的架构对于那些需要将数据集的转换子集传递给多个最终客户的用户,可能具有广泛应用价值。原创 2024-01-25 10:46:54 · 984 阅读 · 0 评论 -
使用 ClickHouse 推动特征存储
为什么要使用特征存储,特征存储的主要类型以及其核心架构组件。原创 2024-01-23 12:54:57 · 1009 阅读 · 0 评论 -
庆祝一年的成长
随着今年即将结束,我们想要向您表达衷心的感谢,感谢您成为 ClickHouse Cloud 旅程的一部分。原创 2024-01-15 00:56:34 · 872 阅读 · 0 评论 -
在ClickHouse中使用聚合组合器
探讨聚合组合器,如何用它简化查询,同时避免对数据进行结构性更改的需要。原创 2024-01-01 13:53:12 · 1392 阅读 · 0 评论 -
激发大规模ClickHouse数据加载(3/3)确保加载大规模数据的可靠性
ClickHouse Cloud提供了ClickPipes 这一内置的托管集成解决方案,能支持大数据量鲁棒性加载,以及自动重试等强大功能。原创 2024-01-01 13:28:59 · 972 阅读 · 0 评论 -
使用ClickHouse UDF与OpenAI模型集成
本文字数:14683;估计阅读时间:37 分钟作者:Dale McDiarmid审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发。原创 2023-12-24 16:50:15 · 1038 阅读 · 0 评论 -
激发大规模ClickHouse数据加载(2/3)大规模数据加载的加速调优
演示如何调整插入性能的重要因素,从而大幅加快大规模数十亿行数据插入的速度原创 2023-12-24 16:29:53 · 969 阅读 · 0 评论 -
ClickHouse中的CPU调度
描述向量化的工作原理,什么是CPU调度,如何找到CPU调度优化的空间,以及如何在ClickHouse中使用CPU调度。原创 2023-12-20 19:37:22 · 1122 阅读 · 0 评论 -
解绑传统云数据仓库
实时数据仓库正在演变成为:构建数据密集型交互式应用程序的关键架构组件。原创 2023-12-13 17:50:39 · 798 阅读 · 0 评论 -
详解最小化 Kafka 到 ClickHouse 延迟的原理和方法
描述在Kafka和ClickHouse架构中可能出现的延迟问题,以及度量和解决方法。原创 2023-12-02 00:54:44 · 1198 阅读 · 0 评论 -
ClickHouse Keeper: 一个用 C++ 编写的 ZooKeeper 替代品
介绍 ClickHouse Keeper 的特点和优势,它是 ZooKeeper 资源的高效开源替代品。原创 2023-11-25 16:49:33 · 2850 阅读 · 1 评论 -
使用ClickHouse进行向量搜索 - 第二部分
这篇文章是关于向量搜索系列的续篇,我们将通过实际的例子详细探讨ClickHouse与向量搜索的关系,并回答“什么时候应该使用ClickHouse进行向量搜索?”的问题。原创 2023-11-25 15:52:46 · 2503 阅读 · 0 评论 -
使用ClickHouse进行矢量搜索 - 第一部分
高层次的介绍向量嵌入和向量数据库,它们的价值以及它们如何与更传统的搜索方法相关,以及如何在大规模上匹配向量的一般方法。原创 2023-11-17 18:35:19 · 377 阅读 · 0 评论 -
在ClickHouse中处理时序数据
如果处理时序数据可能是你非常重要的使用场景,那么本文必读。原创 2023-10-26 19:02:29 · 1084 阅读 · 0 评论 -
向ClickHouse中引入倒排索引
本文讲解倒排索引的实验性支持。原创 2023-10-22 17:09:56 · 1082 阅读 · 0 评论 -
在 ClickHouse 中处理更新和删除
ClickHouse为不同的情况提供了多种强大的方式来有效地更新和删除数据原创 2023-10-07 22:24:22 · 5149 阅读 · 0 评论