自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(88)
  • 收藏
  • 关注

原创 ClickHouse 24.7 版本发布说明

本文字数:8563;估计阅读时间:22 分钟作者:ClickHouse Team本文在公众号【ClickHouseInc】首发时间!又一个月过去了,这意味着又到了发布新版本的时间!本次ClickHouse 24.7 版本包含了🎁、🛷、🐛一如既往,我们特别欢迎所有在 24.7 版本中的新贡献者!ClickHouse 的广受欢迎,很大程度上归功于社区的积极贡献。看到社区不断壮大,总是让人感到谦虚。

2024-08-15 19:00:18 907

原创 如何在 ClickHouse 中使用 Ibis

本文字数:8540;估计阅读时间:22分钟作者:Mark Needham本文在公众号【ClickHouseInc】首发Ibis 是一个开源的数据帧库,旨在兼容任何数据系统使用。它支持超过 20 种后端,包括 Polars、DataFusion 和 ClickHouse,并提供一个 Python 风格的接口,可以将关系操作翻译为 SQL 在底层数据库上执行。在这篇博客文章中,我们将学习如何在 ClickHouse 中使用 Ibis【https://ib

2024-08-15 18:31:02 519

原创 Corsearch 用 ClickHouse 替换 MySQL 进行内容和品牌保护

我们得到了一些令人瞠目的数据。Chase 和他的团队对 ClickHouse 与专用向量数据库进行了比较分析,发现尽管专用向量数据库在近似索引方面可能表现更好,但它们仍然是特殊用途的系统,需要特定的技能来采用和维护。ClickHouse 是 Corsearch 数据基础设施的关键元素,提供了业务核心的关键能力,整合了多个用例的分析数据管理,并简化了操作:“ClickHouse 在捕获网络流量数据方面发挥了重要作用,我们通过将复杂的数据管道整合到单一的 ClickHouse 集群中,提高了整体效率和性能。

2024-07-26 18:04:02 823

原创 构建查询洞察 UI

本文字数:2631;估计阅读时间:7 分钟作者:Bucky Schwarz本文在公众号【ClickHouseInc】首发我们最近发布了 Query Insights 的初步实现,为 ClickHouse Cloud 用户提供了一种便捷的方法来查看和解释查询日志。该功能对所有 ClickHouse Cloud 用户开放,本篇文章将讨论其功能和构建过程。ClickHouse 实例中的 system.query_log 表包含大量有价值的数据,可以帮助用户了解:查询性能和异常;

2024-07-26 18:00:59 1131

原创 Tekion 选择 ClickHouse Cloud 提升应用性能和指标监控

本文字数:4187;估计阅读时间:11 分钟作者:ClickHouse team本文在公众号【ClickHouseInc】首发Tekion 由前 Tesla CIO Jay Vijayan 于 2016 年创立,利用大数据、人工智能和物联网等技术,为其汽车客户解决各种问题。Tekion 于 2020 年推出了其经销商管理软件 Automotive Retail Cloud (ARC)。作为一个端到端的云平台,ARC 旨在无缝连接整个汽车经销商的业务,为经销商和制造商带来了新的简化、效率和连接体验。

2024-07-26 17:56:05 789

原创 ClickHouse 24.6 版本发布说明

本文字数:14127;估计阅读时间:36 分钟作者:ClickHouse team本文在公众号【ClickHouseInc】首发又到了发布新版本的时间!本次ClickHouse 24.6 版本包含了🎁、🛷、🐛我们向 24.6 版本的所有新贡献者表示特别欢迎!ClickHouse 的流行离不开社区的贡献,看到社区不断壮大,总是令人感动。

2024-07-26 17:52:17 608

原创 更快地构建更好的 AI 产品:Braintrust 使用 ClickHouse 进行实时数据分析

本文字数:3383;估计阅读时间:9 分钟作者:ClickHouse team本文在公众号【ClickHouseInc】首发Braintrust 正在引领 AI 公司在构建、测试和改进产品方面的变革。自 2023 年以来,其平台已帮助 Zapier、Notion 和 Airtable 等公司深入了解其 AI 模型的性能,并做出更快的数据驱动决策,从而提高可靠性和质量。Braintrust 通过结合实时数据处理与自动评估工具,帮助揭示 AI 的黑盒性质,实现持续改进和优化。

2024-07-26 17:37:24 870

原创 Java 客户端…续篇来袭?!

本文字数:4187;估计阅读时间:11 分钟作者:ClickHouse team本文在公众号【ClickHouseInc】首发ClickHouse 是一个快速、强大且功能齐全的数据库,需要一整套语言客户端生态系统来发挥其最大潜力。作为最受欢迎的集成之一,ClickHouse Java 客户端提供了一种无缝且高效的方式,让 Java 应用程序能够与 ClickHouse 数据库进行交互。它通过提供熟悉且直观的界面,提高了开发者的生产力,简化了数据库操作,促进了更高效的开发过程。

2024-07-26 17:34:27 827

原创 Lago - 使用 ClickHouse 扩展事件引擎

本文字数:4540;估计阅读时间:12 分钟作者:Mathew Pregasen本文在公众号【ClickHouseInc】首发本周,我们欢迎来自 Lago 的一篇博客文章,介绍了他们如何使用 ClickHouse 扩展一个事件引擎,并在此过程中将查询速度最高提高了 137 倍!这篇博客文章的原始版本发布在 Github 上。

2024-07-26 17:19:21 826

原创 全球最快的 JSON 文件查询工具

虽然这可能导致不同工具之间的结果不同,因为 SQL 并不强制默认顺序,但基准测试的目标是评估用户希望尽快对文件进行采样以及工具避免完全扫描的能力。所以当我第一次看到 Hacker News 上那篇“查询大型 JSON 文件的最快工具是用 Python 编写的”帖子时,我的第一个想法是——“但 clickhouse-local 不是用 Python 编写的”。clickhouse-local 是一个单一的二进制文件,允许你使用 SQL 快速处理本地和远程文件,提供了无数据库的数据库功能。本文字数:1684;

2024-06-26 11:22:38 1121

原创 Trip.com 如何从 Elasticsearch 迁移到 ClickHouse 并构建了 50PB 的日志解决方案

本文字数:8721;估计阅读时间:22 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发在 Trip.com,我们为用户提供广泛的数字产品,包括酒店和机票预订、景点、旅游套餐、商务旅行管理和与旅行相关的内容。正如你所猜的那样,我们需要一个可扩展、可靠且快速的日志平台,这对于我们的运营至关重要。

2024-06-26 11:18:29 987

原创 ClickHouse 性能测试

例如,当我们发现一个竞争数据库引擎使用 sum 聚合函数完成查询的速度是我们的两倍时,我们测试了几十种 sum 的实现,最终找到了性能最佳的(参见关于此的演讲,俄语)。软件是一个不断变化的有机体,而 ClickHouse 的变化速度非常快——为了解释这一规模,仅在 2021 年 7 月,我们就合并了由 60 位不同作者提交的 319 个拉取请求(实时统计数据在这里)。这个测试有更多的失败模式,而不仅仅是功能测试,更糟糕的是,这些失败有些是定量的,而不是二元的。最近的一次是我们提到的 PR 带来的加速。

2024-06-26 11:03:25 681

原创 ClickHouse 24.5 版本发布说明

本文字数:12168;估计阅读时间:31 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse Shanghai User Group第1届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!发布概要本次ClickHouse 24.5版本包含了🎁、🛷、🐛一如既往,我们对 24.5 版本的所有新贡献者表示特别欢迎!ClickHouse 的受欢迎程度在很大程度上归功于社区的贡献。看到这个社区不断壮大,总是让人感到谦卑。

2024-06-26 10:53:43 992

原创 宣告 adsb.exposed - 基于 ClickHouse 的 ADS-B 航班数据交互式可视化和分析

本文字数:10340;估计阅读时间:26 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!也许你已经听说过 Flight Radar,这个实时航班跟踪地图,跟踪飞机在天空中飞行非常有趣,但在这篇博客文章中,我们将向你介绍更酷炫的东西!!ADS-B(自动相关监视广播)是一种用于广播各种航班数据的无线电协议。

2024-06-25 17:35:09 613

原创 如何只用 ClickHouse SQL 实现 K-Means 聚类

本文字数:15474;估计阅读时间:39 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!

2024-06-25 16:27:26 987

原创 在 ClickHouse 中使用 Rust 实现超过 2 倍速度提升的哈希

本文字数:2544;估计阅读时间:7 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发Meetup活动ClickHouse 上海首届 Meetup 讲师招募中,欢迎讲师在文末扫码报名!

2024-06-25 15:04:21 855

原创 ClickHouse vs. Elasticsearch:十亿行数据的较量

在详细展示基准测试结果之前,我们先提供一个简要总结。10 亿行数据集ClickHouse 存储 10 亿行数据集所需的磁盘空间比 Elasticsearch 少 12 倍。聚合查询 ①(执行全数据集聚合)在 ClickHouse 上的运行速度是 Elasticsearch(查询 DSL)的 5 倍。聚合查询 ②(聚合过滤后的数据集)在 ClickHouse 上的运行速度是 Elasticsearch(查询 DSL)的 6 倍。

2024-06-25 12:11:15 1232 1

原创 ClickHouse vs. Elasticsearch: 计数聚合的工作原理

本文字数:7875;估计阅读时间:20 分钟审校:庄晓东(魏庄)

2024-05-25 17:51:29 1199

原创 ClickHouse 24.4 版本发布说明

本文字数:13148;估计阅读时间:33 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发新的一个月意味着新版本的发布!发布概要本次ClickHouse 24.4版本包含了🎁、🛷、🐛和往常一样,我们向 24.4 版本中的所有新贡献者表示热烈欢迎!ClickHouse 的受欢迎程度在很大程度上归功于社区的努力。看到社区不断壮大总是令人感到骄傲。

2024-05-25 17:37:16 1131

原创 从ZooKeeper切换到ClickHouse-Keeper,藏着怎样的秘密

本文字数:7772;估计阅读时间:20 分钟作者:博睿数据 李骅宸(太道)& 小叮当本文在公众号【ClickHouseInc】首发Bonree ONE是博睿数据公司发布的一体化智能可观测平台。平台所有信号数据迁移到ClickHouse集群后,随着数据量的增长,对ZooKeeper的性能和稳定性要求也越来越高。ZooKeeper是一个开源的分布式协调组件,用于分布式系统之间的协调作用。但我们在使用中也遇到了一些痛点,如果不及时处理会影响到业务。

2024-05-25 17:14:54 1555

原创 链接物化视图在 ClickHouse 中的应用

在接下来的博客文章中,我们将通过一个实际示例演示如何链式使用物化视图。现在,在运行了一段时间后,我们决定将数据分组并分块为 10 分钟的桶,而不仅仅是 1 分钟的。在处理我们的小数据量时,这是有效的,但是当处理更大的数据时,我们可能需要另一个表,将数据按 10 分钟的间隔分桶存储。换句话说,我应该让聚合状态的物化视图不直接从 Kafka 引擎表中读取数据,而是应该从已经从 Kafka 中提取出的原始事件中读取。现在,我们不再将原始按秒的数据从头开始聚合到 10 分钟的桶中,而是利用了一分钟的桶。

2024-05-25 17:07:14 945

原创 从ES到ClickHouse,Bonree ONE平台更轻更快!

本系列第一篇内容:100%降本增效!Bonree ONE平台通过ClickHouse实现了可观测信号数据的统一!Bonree ONE是博睿数据发布的一体化智能可观测平台,融合了指标、调用链、日志、会话、事件等多种数据。早期时候,调用链、会话、日志的数据存到了Elasticsearch。我们历史架构如下图,大数据团队需要维护多种存储。比如,告警业务A说要做AI训练,就得自己加工一份时序数据到HDFS,指标中心业务B说加工指标,就自己加工一条链路到ClickHouse,DEM业务C想做会话分析,APM业务D又想

2024-05-25 16:45:53 1101

原创 LangChain - 为何我们选择 ClickHouse 作为 LangSmith 的动力

本文字数:4742;估计阅读时间:12 分钟作者:Ankush Gola审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发“我们在使用 ClickHouse 方面有着良好的经历。它使我们能够将 LangSmith 扩展到生产环境,并提供一个用户可以记录所有数据的服务。如果没有 ClickHouse,我们无法取得这样的成就。

2024-05-25 16:29:46 850

原创 100%降本增效!Bonree ONE平台通过ClickHouse实现了可观测信号数据的统一!

我们将Driud、Elasticsearch、HDFS这些重组件存储的所有可观测性信号数据全部迁移到了ClickHouse。本期先介绍Druid迁移ClickHouse的部分。

2024-04-29 09:53:53 602

原创 数据变更捕获 (CDC):PostgreSQL 与 ClickHouse - 第二部分

我们在之前的博客中提出的端到端架构如下所示。该架构假设用户已经拥有一个运行Kafka Connect框架的Kafka实例。在我们的示例中,我们假设用户正在使用Confluent Cloud来托管Kafka,该服务会自动为事件创建相应的主题。不过,用户也可以选择自行托管Kafka。我们提出的架构将适用于任何能够写入由Debezium生成的事件的摄取管道。

2024-04-25 14:28:26 1156 2

原创 数据变更捕获 (CDC):PostgreSQL 与 ClickHouse - 第一部分

本文字数:13442;估计阅读时间:34 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发。

2024-04-25 13:43:35 961 1

原创 ClickHouse 24.3 版本发布说明

本文字数:10774;估计阅读时间:27 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发北半球迎来春天,也是 ClickHouse 发布新版本的时候了。发布概要本次ClickHouse 24.3版本包含了🎁、🛷、🐛一如既往,我们诚挚地欢迎所有在 24.3 版本中新加入的贡献者!ClickHouse 之所以备受欢迎,很大程度上要归功于社区的努力贡献。看到社区不断壮大总是令人感到谦卑。

2024-04-25 13:11:00 1143

原创 使用ClickHouse和Terraform进行CI/CD

本文字数:11047;估计阅读时间:28 分钟审校:庄晓东(魏庄)本文在公众号【ClickHouseInc】首发。

2024-04-25 11:34:13 964

原创 在 ClickHouse 中使用聚合组合器

聚合函数组合器为ClickHouse中的任何数据结构上的分析查询带来了几乎无限的可能性。我们可以为聚合添加条件,对数组元素应用函数,或获取中间状态以以聚合形式存储数据,但仍可用于查询。征稿启示面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。

2024-04-25 11:30:45 1204

原创 使用 Atlas 管理 ClickHouse 的 Schema-as-Code

近年来,随着云资源管理方面的巨大进步,一种名为基础设施即代码(IaC)的方法的出现,管理数据库模式的一种新方法逐渐崭露头角。然而,随着项目和组织规模的增长,这些技术的初始优势开始显露出重要的折衷。在 2010 年代,越来越多的开发者寻求避免架构管理的复杂性,因此倾向于使用无架构的数据库,但这种转变导致了数据一致性和维护方面的挑战随着系统的扩展而出现。所有这些技术都采用更简洁的语法和更大的灵活性,承诺了更快的开发周期和更容易的原型设计,使它们成为初创公司和追求快速市场进入的新项目的首选语言。

2024-04-24 14:11:23 1013

原创 解密 Grupo MasMovil 使用 ClickHouse 监控无线网络

例如,对于15分钟的数据,我们只有15天的数据,对于每小时的数据,我们有30天的数据,对于15分钟的数据,我们有一年的数据。我们只提到了对节点的监控,但在这些节点内部有单元,而在它们上面,还有关于城市、地区的拓扑信息,以及全国某些KPI的值,这些对我们的工程团队至关重要。但是使用SQL和ClickHouse带来的附加功能,我们可以复制所有不同的KPI,自己或与ClickHouse支持团队的帮助下创建它们是很有趣的,后者对于特殊和奇怪的KPI帮助了我们很多。然而,我们需要一个在磁盘使用方面最佳的数据库。

2024-04-24 13:54:36 664

原创 使用ClickHouse、Grafana和WarpStream规模化的解决可预测成本的日志留存

以下是 CGW 堆栈在各种日志容量下的每月总成本。18.9880155.57235.5737.9680155.62235.6275.9280155.71235.71151.8480155.89235.89303.6780156.24236.891515.5280158.74238.741433685.43190.85276.28上述成本不包括 OTEL 收集器(或等效物)的成本,我们假设这些收集器将在边缘运行,并且代表着可以忽略的开销。成本比较。

2024-04-24 13:36:07 1276

原创 ANN 向量搜索:基于 SQL 的 LSH 和随机投影

以上在 Python 或任何编程语言中实现起来相对简单。但是,ClickHouse 对于这个任务来说是理想的。我们不仅可以仅使用几行 SQL 定义上述内容,而且我们还将利用 ClickHouse 的所有优势,包括根据元数据进行过滤、聚合以及不受内存限制。在插入新向量时,还需要在插入时计算行的嵌入序列。对于我们的测试数据集,我们将使用来自 Glove 的测试集,其中包含从 840B CommonCrawl 标记中训练的 2.1m 个向量。此集合中的每个向量都有 300 个维度,表示一个单词。

2024-04-24 12:09:50 722

原创 ClickHouse 发布 24.2 版本

这触发了一个新的缓冲区刷新周期,使用默认的缓冲区刷新超时,这意味着该查询的发送者需要等待完整的默认缓冲区刷新时间(OSS 为 200 毫秒,ClickHouse Cloud 为 1000 毫秒)才能收到插入的确认。在确保这一点尽可能高效的同时,我们注意到该函数还执行了任何常量参数的必要解包操作(最常见的用例即我们传递一个常量向量进行比较),这导致了不必要的内存复制。在传统的插入查询中,数据是同步插入到表中的:当 ClickHouse 收到查询时,数据会立即以数据part的形式写入到数据库存储中。

2024-04-24 10:27:05 740

原创 在 AWS EKS 中通过对 ClickHouse Pod 进行分箱来节省数百万美元

本应安排在同一节点上的两个 ClickHouse pod 却被安排在不同的节点上,导致我们需要更多的 EC2 节点来承载相同数量的 pod,节点的资源利用率降低,并且机群成本更高。Kubernetes 还允许您创建自己的调度器二进制文件,但在我们的情况下这并不是必要的,因为具有 MostAllocated 评分策略的现有 kube-scheduler 镜像已经满足了我们的要求。例如,长时间运行的查询将被中断。为了使我们的资源消耗尽可能高效,我们进行了一项测试,以确定我们的 pod 是如何分配的。

2024-04-21 18:19:02 780

原创 MySQL之旅

探讨了为了支持 MySQL 语法所做出的更改。

2024-03-17 13:17:48 935

原创 用 LlamaIndex 和 ClickHouse 为Hacker News 和 Stack Overflow 构建聊天机器人

探讨使用 ClickHouse与LlamaIndex的集成来构建一个问答机器人应用程序

2024-03-13 15:55:44 929

原创 ClickHouse Grafana插件4.0版 - 升级SQL可观测性

新版ClickHouse Grafana插件的重要更能更新。

2024-03-10 11:11:09 1020

原创 流式捕捉:ClickHouse的开箱即用CDC解决方案

Streamkap是一种针对ClickHouse开箱即用的变更数据捕捉解决方案。

2024-03-05 13:56:31 1110

原创 加速您的ClickHouse查询

ClickHouse 查询处理架构针对实时分析进行了优化,并且具有使查询处理快速的默认设置。

2024-03-04 13:55:10 2282

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除