
软件工程
文章平均质量分 94
ClickHouseDB
这个作者很懒,什么都没留下…
展开
-
端午安康!ClickHouse 融资 3.5 亿美元,AI 时代的分析神器再进化!
此前 ClickHouse 已累计融资逾 3 亿美元,至此总融资金额突破 6.5 亿美元。原创 2025-06-03 21:45:00 · 371 阅读 · 0 评论 -
剖析 ClickHouse 如何为 S3 构建分布式缓存
云原生缓存机制无需依赖本地磁盘,也能达到甚至超越 SSD 级的性能表现。原创 2025-06-03 17:29:23 · 969 阅读 · 0 评论 -
ClickPipes 背后的技术实现:在 ClickHouse 中构建 MySQL 变更数据捕获
ClickPipes 提供了一套健壮且高效的 MySQL CDC 实现方案,能够稳定捕获并实时同步 MySQL 数据库中的变更内容。原创 2025-05-25 12:33:32 · 929 阅读 · 0 评论 -
ClickHouse 与 Parquet(第一篇) :构建快速 Lakehouse 分析的坚实基础
深入介绍 ClickHouse 如何支持 Lakehouse 更高层的数据表格式和元数据管理机制。原创 2025-05-19 10:00:00 · 1004 阅读 · 0 评论 -
使用 ClickHouse 可视化 Foursquare 地点数据
ClickHouse 非常适合用于大规模地理空间数据的分析。Foursquare 数据集规模约为 1 亿条记录,而 ADS-B 数据集已超过 1300 亿条,并持续增长中。ClickHouse 甚至支持客户处理规模达数十万亿记录的数据集。在应对此类高负载场景时,ClickHouse 不仅响应迅速,性能也极为稳定可靠。原创 2025-05-18 16:00:00 · 727 阅读 · 0 评论 -
ClickHouse 用 AgentHouse 向你展示通过 MCP 集成 LLM 的可能性
AgentHouse 是一个非常值得探索的演示环境,快来尝试一下吧!原创 2025-05-09 23:00:00 · 626 阅读 · 0 评论 -
据坊间传 ClickHouse 越“懒”越快:惰性物化(Lazy Materialization)正式登场
惰性物化不仅让 ClickHouse 变得更快,也为其 I/O 优化体系画上了关键的一笔。原创 2025-05-09 22:00:00 · 563 阅读 · 0 评论 -
ClickHouse 联合 Ruby Central 推出 Ruby Gem 下载分析服务
我们与 Ruby Central 合作,在 sql.clickhouse.com 上推出了免费的 Ruby Gem 下载分析服务。原创 2025-05-09 17:44:59 · 759 阅读 · 0 评论 -
Dash0 如何用 ClickHouse 构建可观测性解决方案
Dash0 选择 ClickHouse 作为其 OpenTelemetry 原生可观测性平台的核心存储引擎,充分体现了架构设计上的专业性与前瞻性。原创 2025-04-19 15:45:00 · 961 阅读 · 0 评论 -
在用 Rust 的时候,我们会聊什么?ClickHouse 实践一年后的总结
Rust 在 ClickHouse 的应用一切顺利!原创 2025-04-19 14:45:00 · 997 阅读 · 0 评论 -
内部揭秘 ClickHouse Cloud 极速扩容的机制:Make Before Break
随着架构的全面升级,我们的扩容效率显著提升,系统也不再受到中断与长时扩容等早期问题困扰,资源分配更加快速与稳定。原创 2025-04-19 10:17:15 · 629 阅读 · 0 评论 -
ClickHouse 查询提速新武器:查询条件缓存
查询条件缓存简单易用,对 ClickHouse 的查询性能提升具有巨大价值。原创 2025-04-07 10:00:00 · 758 阅读 · 0 评论 -
解锁 ClickHouse 新技能: JSON 数据性能调优,实时获取业务洞察
通过确保输入表始终小型且不受数据集规模影响,ClickHouse 能够在 任何数据规模下都保持实时 JSON 分析的高性能。原创 2025-04-06 23:00:00 · 861 阅读 · 0 评论 -
从 Postgres 迁移到 ClickHouse:数据建模技巧更新版 V2
Postgres CDC 让 PostgreSQL 数据高效同步到 ClickHouse,支持大规模数据的实时分析。原创 2025-04-06 20:30:00 · 1011 阅读 · 0 评论 -
【硬核预警】神秘消失的 CPU:一次 Linux 内核调试之旅
本案例不仅让我掌握了调试技巧,更重要的是让我深入理解了 Linux 内核的底层原理。原创 2025-03-16 15:12:19 · 916 阅读 · 0 评论 -
ClickHouse 输入格式之性能巅峰对决:最快、最高效的选择是什么?
ClickHouse 客户端会根据典型使用场景,自动选择最适合的输入格式,其中针对高吞吐量插入的客户端会优先使用 Native 格式。原创 2025-03-10 17:00:00 · 1043 阅读 · 0 评论 -
与 ClickHouse 一起攀登冰山(Apache Iceberg)
本文字数:8411;估计阅读时间:22 分钟作者: Melvyn Peignon本文在公众号【ClickHouseInc】首发回顾 2024 年,有一项技术始终引人注目:Apache Iceberg,更广义地说,是湖仓架构。原创 2025-03-02 19:00:00 · 810 阅读 · 0 评论 -
面向 AI Agent 的数据分析
AI Agent 逐步成为实时分析数据库的活跃用户,这一变化正在重塑我们对数据系统的认知。虽然这一趋势尚处于早期阶段,但随着模型上下文协议 (Model Context Protocol) 的推出,以及 AI 驱动分析工具生态系统的不断扩展,数据系统的基础架构正在逐步演进,以适应这一新需求。AI Agent 正在从单纯的查询执行工具和“函数调用者”,发展为具备数据理解能力、上下文管理能力和洞察力的智能助手。这一趋势既带来了巨大的机遇,也伴随着挑战。原创 2025-03-02 14:34:13 · 1128 阅读 · 0 评论 -
ClickHouse 开源了 kubenetmon 开源:讲解 ClickHouse Cloud 如何传输监控数据
本文字数:13618;估计阅读时间:35 分钟作者: Ilya Andreev本文在公众号【ClickHouseInc】首发在本文中,我们宣布开源 kubenetmon——这是我们用于监控 ClickHouse Cloud 数据传输的工具。项目地址:GitHub https://github.com/ClickHouse/kubenetmon。云计算为软件团队提供了诸多优势,例如现成的基础设施组件、无限的可扩展性、高性价比等。在云成本规划中,许多企业都会精打细算计算和存储资源的使用。原创 2025-02-23 11:45:00 · 792 阅读 · 0 评论 -
用 BuzzHouse 填补 ClickHouse 数据库模糊测试的空白
本文字数:5651;估计阅读时间:15 分钟作者: Pedro Ferreira本文在公众号【ClickHouseInc】首发近年来,模糊测试 (Fuzzing) 已成为热门研究方向,广泛用于发现软件缺陷,包括崩溃、错误输出和安全漏洞。数据库同样是研究重点,许多专门针对数据库的模糊测试工具相继问世。ClickHouse 也积极采用模糊测试工具进行测试。原创 2025-02-23 10:15:00 · 640 阅读 · 0 评论 -
ClickHouse发起十亿JSON文档挑战,性能完胜MongoDB、ES、DuckDB和PostgreSQL等数据库
在我们的基准测试中,ClickHouse 在存储效率和查询性能方面全面超越了所有测试过的 JSON 数据存储系统。在分析型查询方面,ClickHouse 不仅更快——相比领先的 JSON 数据存储(如 MongoDB),它的速度快数千倍,相比 DuckDB 和 PostgreSQL 也是如此,并且比 Elasticsearch 快十倍以上。原创 2025-02-22 17:31:44 · 1595 阅读 · 0 评论 -
使用 Evidence.dev 可视化 BlueSky 数据
在本篇博客中,我们将深入解析 Evidence.dev 的独特之处,以及它在数据应用构建方面与其他工具的不同之处。按照本文的步骤,你可以高效分析 BlueSky 数据,并构建类似的仪表板来探索你的数据集。目前,我们已将该项目部署到 https://bluesky.evidence.app,你可以在这里查看 BlueSky 数据集的各种可视化结果。通常,浏览器会自动打开 Evidence 应用,如果没有,请手动访问 localhost:3000,即可看到 Evidence 的界面。原创 2025-02-22 15:20:20 · 933 阅读 · 0 评论 -
利用高级监控仪表板解决常见数据库问题
通过这篇文章,我们了解了 ClickHouse 的高级仪表板功能,包括如何开始使用它,以及如何利用它识别和解决常见问题。无论您选择哪种部署方式,这款轻量级的监控工具都可以开箱即用。如果您倾向于使用 Prometheus 等第三方监控工具,也可以参考官方文档中的示例进行配置。此外,ClickHouse Cloud 还提供了专属的新仪表板功能,让您可以创建更丰富的可视化效果,值得进一步探索。原创 2025-02-22 13:53:52 · 590 阅读 · 0 评论 -
ClickHouse 查询优化实用指南:第一部分
ClickHouse Playground 中的一个数据集是 NYC Taxi 数据集,其中包含纽约市出租车行程的详细数据。在没有进行任何优化的情况下,我们已经将这个数据集导入。以下是创建表并从 S3 存储桶导入数据的命令。为了方便操作,我们直接从数据中推断表结构。SELECT *接下来,我们先看一下 ClickHouse 自动生成的表结构。识别慢查询。原创 2024-12-29 22:45:12 · 1051 阅读 · 0 评论 -
使用 ClickHouse 实现 Medallion 架构
本文字数:5739;估计阅读时间:15 分钟作者: PME Team本文在公众号【ClickHouseInc】首发在大规模数据工程中,高效地整理、转换和分析数据集是核心任务。Medallion 架构是一种广泛应用的数据工作流设计模式,利用分层转换方法来组织数据并提高其质量。传统上,人们使用 Spark 和 Delta Lake 等工具来实现这一流程,从原始、杂乱的数据中系统地提取出干净且高质量的数据集,供最终用户分析和使用。原创 2024-12-29 22:33:49 · 1215 阅读 · 0 评论 -
ClickHouse可观测性的故事终于完整了,基于 SQL的技术演进依然在持续
ClickHouse 早已在数据输入输出上就支持 JSON 格式,这也促成了它与可观测性工具的早期整合。用户可以通过 ClickHouse 的原生接口或 HTTP 接口发送 JSON 数据,并选择多种输出格式满足需求。这种灵活性使 ClickHouse 更容易集成 OpenTelemetry、Grafana 等工具,实现流畅的数据摄取与可视化。同时,它让用户能轻松构建自定义接口,使 ClickHouse 能适应多种可观测性应用场景。原创 2024-12-07 10:18:09 · 747 阅读 · 0 评论 -
ClickHouse 神助攻:纽约城市公共交通管理(MTA)数据应用挑战赛
我们在处理 MTA 数据时玩得很开心(尽量让数据清理过程更有趣!),希望我们的工作能帮助大家更轻松地进行有趣的数据分析。如果您在示例库【https://github.com/ClickHouse/sql.clickhouse.com】中创建了新的查询或图表,欢迎与我们分享!原创 2024-10-30 17:53:27 · 1171 阅读 · 0 评论 -
奔走相告! ClickHouse 全新构建了强大的 JSON 数据类型
本文字数:8969;估计阅读时间:23 分钟作者:Pavel Kruglov本文在公众号【ClickHouseInc】首发。原创 2024-10-30 17:43:06 · 1231 阅读 · 0 评论 -
超强实用技巧:使用 ClickHouse 构建实时单页应用程序
开源用户可以利用预定义 HTTP 接口将客户端与 SQL 查询解耦。此功能允许 ClickHouse 暴露一个端点,将用户传入的参数注入到预定义 SQL 查询中,并将结果返回给用户。对于简单的业务应用,这能让客户端只需调用有限的 REST API。前述访问限制和配额管理的原则同样适用于调用用户。原创 2024-10-29 23:54:36 · 1171 阅读 · 0 评论 -
使用 ClickHouse 的 UDF 解决语义版本的需求
应用版本通常采用语义版本控制(Semantic Versioning),版本格式为 <主版本>.<次版本>.<补丁版本>。我们可以利用正则表达式和 extract 函数来提取任何符合语义版本格式的内容,这样可以从字符串开头获取语义版本。我在 Embrace 工作,我们构建了唯一基于 OpenTelemetry 的用户中心移动应用可观测性解决方案,并使用 ClickHouse 为我们的时间序列分析产品提供支持。将语义版本重写为整数数组后,排序将符合预期,且不同长度的版本也可以正常排序!原创 2024-10-29 23:45:21 · 770 阅读 · 0 评论 -
基于 ClickHouse、Apache Arrow 和 Perspective 的流式实时可视化
本文字数:9053;估计阅读时间:23 分钟作者:Dale McDiarmid本文在公众号【ClickHouseInc】首发。原创 2024-10-29 23:37:57 · 992 阅读 · 0 评论 -
使用 ClickHouse 和 Estuary Flow 进行实时 Salesforce 分析
本文字数:2794;估计阅读时间:7 分钟作者: Estuary本文在公众号【ClickHouseInc】首发实时处理和分析数据的能力已经成为各行业企业的关键需求。ClickHouse 是一个高性能的列式数据库管理系统,与强大的数据集成平台 Estuary Flow 相结合,构建了一个能够从数百个数据源中摄取并转换数据的实时分析平台。本文将深入探讨通过 Estuary Flow 的 Dekaf 功能将这些技术无缝集成的详细过程。原创 2024-10-09 17:55:34 · 986 阅读 · 0 评论 -
在 10 分钟内通过 ClickHouse Cloud 查询端点给应用程序增加数据分析功能
ClickHouse 的开发速度常常令新用户感到惊喜,最近的发布周中,我们推出了许多新功能,使得使用 ClickHouse 变得更加简单。我们在开源代码库中详细记录了它的秘诀:通过使用 ClickHouse 的物化视图在插入时计算聚合,确保查询能在毫秒级内响应,从而提供快速且流畅的用户体验。希望从浏览器调用端点的用户,还可以配置允许的域的 CORS 头。目标很简单:如果用户查看的包托管在 GitHub 上,则在我们的主要 ClickPy 分析页面中添加一些简单指标,比如星标、关注、问题和拉取请求的数量。原创 2024-10-08 21:41:16 · 775 阅读 · 0 评论 -
我们如何构建 ClickHouse 内部的数据仓库:一年回顾的思考 【Part2】
在 DWH 中,我们不仅提供这些实时数据的原始格式,还提供其转换后的聚合状态,例如实时事件的聚合结果。对于我们的数据仓库,ClickHouse 的强大之处在于,它能轻松将实时数据与批处理报告结合,从而扩展了可查询的数据范围。例如,在增加新的数据源时,dbt 允许我们通过时间函数轻松合并不同时间导入的数据,并在数据准备好后触发后续流程。同时,随着指标的复杂性增加,原先简单的 count() 和 sum() 操作逐渐被更复杂的窗口函数和数据差异化处理所取代,这些操作还会基于外部表中的条件进行过滤。原创 2024-10-08 13:44:15 · 958 阅读 · 0 评论 -
我们如何构建 ClickHouse 内部的数据仓库【Part1】
在过去的一年里,我们基于开源技术构建了一个广受用户好评的数据仓库(DWH)。尽管该系统已让用户能轻松处理和分析数据,但我们也认识到许多可以进一步优化的地方。我们相信,ClickHouse Cloud 的使用验证了它在构建可靠数据仓库中的潜力。原创 2024-10-07 11:45:09 · 1784 阅读 · 0 评论 -
在 ClickHouse 中进行机器学习数据建模
本文字数:17443;估计阅读时间:44 分钟作者:Dale McDiarmid本文在公众号【ClickHouseInc】首发本文将探索 MLOps 的世界,探讨如何在 ClickHouse 中对数据进行建模和转换,使其成为高效的特征存储,用于训练机器学习模型。我们将重点关注 ClickHouse 作为数据源、离线存储和转换引擎的角色。这些特征存储组件对于高效、准确地传递数据至关重要。尽管大多数开箱即用的特征存储提供了抽象层,我们将深入探讨如何高效建模数据,以构建和提供特征。原创 2024-09-13 18:18:00 · 1845 阅读 · 0 评论 -
推出 CryptoHouse:由 ClickHouse 和 Goldsky 提供支持的免费区块链分析服务
我们很高兴宣布 CryptoHouse 的推出,您可以通过 crypto.clickhouse.com 访问这一免费区块链分析服务,该服务由 ClickHouse 提供支持。现有的公共区块链分析服务通常需要定期的异步查询,而 ClickHouse 则提供了实时分析,通过实现即时查询响应,降低了访问门槛。用户可以使用 SQL 查询这些由 Goldsky 实时更新的数据,并且完全免费。我们定制的用户界面支持保存和共享查询,并提供基本的图表绘制功能,还附有示例帮助用户快速入门。原创 2024-09-13 18:00:40 · 1319 阅读 · 0 评论 -
如何在 ClickHouse 中使用 Ibis
本文字数:8540;估计阅读时间:22分钟作者:Mark Needham本文在公众号【ClickHouseInc】首发Ibis 是一个开源的数据帧库,旨在兼容任何数据系统使用。它支持超过 20 种后端,包括 Polars、DataFusion 和 ClickHouse,并提供一个 Python 风格的接口,可以将关系操作翻译为 SQL 在底层数据库上执行。在这篇博客文章中,我们将学习如何在 ClickHouse 中使用 Ibis【https://ib原创 2024-08-15 18:31:02 · 672 阅读 · 0 评论 -
Lago - 使用 ClickHouse 扩展事件引擎
本文字数:4540;估计阅读时间:12 分钟作者:Mathew Pregasen本文在公众号【ClickHouseInc】首发本周,我们欢迎来自 Lago 的一篇博客文章,介绍了他们如何使用 ClickHouse 扩展一个事件引擎,并在此过程中将查询速度最高提高了 137 倍!这篇博客文章的原始版本发布在 Github 上。原创 2024-07-26 17:19:21 · 973 阅读 · 0 评论 -
全球最快的 JSON 文件查询工具
虽然这可能导致不同工具之间的结果不同,因为 SQL 并不强制默认顺序,但基准测试的目标是评估用户希望尽快对文件进行采样以及工具避免完全扫描的能力。所以当我第一次看到 Hacker News 上那篇“查询大型 JSON 文件的最快工具是用 Python 编写的”帖子时,我的第一个想法是——“但 clickhouse-local 不是用 Python 编写的”。clickhouse-local 是一个单一的二进制文件,允许你使用 SQL 快速处理本地和远程文件,提供了无数据库的数据库功能。本文字数:1684;原创 2024-06-26 11:22:38 · 1654 阅读 · 0 评论