更快地构建更好的 AI 产品:Braintrust 使用 ClickHouse 进行实时数据分析

图片

本文字数:3383;估计阅读时间:9 分钟

作者:ClickHouse team

本文在公众号【ClickHouseInc】首发

图片

Braintrust 正在引领 AI 公司在构建、测试和改进产品方面的变革。自 2023 年以来,其平台已帮助 Zapier、Notion 和 Airtable 等公司深入了解其 AI 模型的性能,并做出更快的数据驱动决策,从而提高可靠性和质量。Braintrust 通过结合实时数据处理与自动评估工具,帮助揭示 AI 的黑盒性质,实现持续改进和优化。

随着 AI 应用的规模和复杂性不断增加,如何高效管理和处理大量数据成为一个挑战。工程团队需要理解模型的表现,以及产品变化是否达到了预期效果。数据处理延迟尤其令人头痛,因为迭代改进依赖于即时反馈。

“当你在进行 AI 产品的交互分析时,工程师无法接受运行任务后等待五分钟,”Braintrust 创始人兼 CEO Ankur Goyal 在 2024 年 6 月的旧金山 ClickHouse 用户聚会上说。

认识到需要一个能够处理实时数据处理需求并提供快速反馈的解决方案,Ankur 创建了 Braintrust。从一开始,Braintrust 就被设计为确保数据立即可用,并促进快速迭代。因此,随着公司的发展,他们实施了 ClickHouse 以支持大规模的实时查询。

图片

Braintrust 的起源

Ankur 于 2017 年创办了他的第一家公司 Impira,该公司使用机器学习帮助企业提取和管理非结构化数据,如文档、视频、图像、音频和网页。在将业务出售给 Figma 后,他接管了 Figma 的 AI 团队。

“在 Impira 和 Figma,我们都发现很难在不破坏其他部分的情况下对我们的 AI 产品进行更改,”Ankur 说。

为了解决这个问题,Ankur 在两家公司都构建了内部工具包,通过系统化的评估测试和验证 AI 模型。这个过程包括严格的日志记录、性能跟踪、输出可视化和故障分析,以实现持续改进而不会意外破坏系统的其他部分。

2023 年,Ankur 与投资者和企业家 Elad Gil 交谈时,意识到一个重要的事实。

“他对我说,‘嘿,你已经两次做了同样的事情,’”Ankur 回忆道。“‘其他公司也在尝试做 AI 的事情,可能也遇到了这个问题。’”

Ankur 开始与其他开发 AI 产品的软件开发人员交谈,很快意识到,企业级技术堆栈的需求广泛存在,这些技术堆栈能够让 AI 公司更快、更可靠地评估和改进他们的产品。他筹集了 510 万美元的种子资金,并开始构建 Braintrust。

寻求效率

在 Figma 时,Ankur 体验到了传统云数据仓库在构建实时数据驱动应用程序方面的局限性。在长达一年的时间里,数据团队设计了一条数据管道,从实验数据处理到可查询状态需要五分钟。尽管相比其他公司这已经很快了,但对于现代 AI 开发所需的交互式分析来说,这个速度还是不够快。

当他开始构建 Braintrust 时,Ankur 意识到需要一个更高效的数据库,能够以最小的延迟处理大量数据。他的搜索让他发现了 ClickHouse,这是一种以高性能和低延迟能力著称的开源列式数据库管理系统。他立刻意识到,ClickHouse 处理复杂查询的能力对于满足 AI 公司的需求至关重要。

使用 ClickHouse 后,Ankur 确保 Braintrust 能够提供即时数据可用性,简化性能跟踪,并促进快速迭代周期。这一集成帮助 Ankur 和他的团队构建了一个能够管理复杂数据工作流的平台,并提供 Braintrust 客户所需的实时分析。

图片

ClickHouse 是核心

Braintrust 采用多数据库架构来优化性能和可靠性。初始数据写入由支持事务完整性和复杂更新的 Postgres 处理。DuckDB 则为前端提供轻量级的浏览器内分析功能。

在这个架构的核心是 ClickHouse,它为现代 AI 模型开发提供了所需的实时数据分析和高速处理能力。与其他解决方案不同,ClickHouse 在处理大量数据和执行复杂查询时表现出色,具有极低的延迟。其列式存储格式允许高效压缩和快速访问相关数据,完美满足 Braintrust 对即时数据可用性和快速反馈周期的需求。

以下是 ClickHouse 在 Braintrust 平台中的集成方式:

1. 实时数据复制

写入 Postgres 的数据会立即复制到 ClickHouse。这确保了实验或用户交互产生的任何新数据都可以进行实时分析。复制过程高效,仅需几百毫秒到几秒钟,确保了最小的延迟和最大的可用性——这是他们在测试其他供应商时无法实现的。

2. 列式存储和压缩

ClickHouse 使用优化的列式存储格式,适用于读取密集型操作。这种格式允许高效压缩和快速访问相关数据列,使 Braintrust 能够在不影响速度或性能的情况下处理大量数据。

3. 查询优化和执行

ClickHouse 的高级查询优化通过表的主索引和 MergeTree 引擎实现,这减少了表的读取数据量。这些功能使 Braintrust 能够快速高效地执行复杂查询。这对于 Braintrust 的评估工具至关重要,因为它们需要快速和准确的查询结果。

4. 可视化仪表板

当你在 Braintrust 中加载一个实验时,首先会向 ClickHouse 发出查询以搜索相关数据并进行预处理。然后将数据发送到你的浏览器,其中运行在 WASM 中的 DuckDB 提供前端分析的最后一英里交互。这种组合使开发人员能够立即获得 AI 模型性能的洞察,允许他们实时探索数据、跟踪指标和识别问题。

5. 可扩展性

ClickHouse 的分布式架构和水平扩展是 Braintrust 的另一个主要优势。它允许 Braintrust 增加数据负载并运行并发查询而不降低性能。通过向其 ClickHouse 集群添加更多节点,Ankur 和他的团队即使在大规模数据操作压力下也能保持高性能,确保随着客户基础的增长提供一致的服务质量。

6. 故障容错和可靠性

ClickHouse 的容错功能确保了数据完整性和可用性,即使在硬件故障的情况下也是如此。这些功能包括强大的复制机制和频繁的备份,防止数据丢失并促进快速从故障中恢复。这种可靠性对于 Braintrust 的客户至关重要,因为它保证了系统的连续运行和一致的服务。

AI 的新前沿

目前,全球许多最成功的 AI 公司已经依赖 Braintrust 的平台来改进他们的产品开发流程。借助实时分析和自动评估工具,这些公司能够更快地构建和发布更高质量的 AI 产品,从而保持市场竞争优势。

“Braintrust 填补了评估非确定性 AI 系统的关键缺口,”Zapier 的联合创始人兼 AI 负责人 Mike Knoop 在 Braintrust 启动时表示。“我们已经成功地使用它来衡量和改进我们的 AI 优先产品。”

展望未来,Ankur 和 Braintrust 团队计划继续优化他们的平台,以满足 AI 开发人员不断变化的需求。这包括进一步优化和扩展他们对 ClickHouse 的使用,以处理更大规模的数据集和更复杂的查询。凭借其可扩展性和可靠性,ClickHouse 将继续支持 Braintrust 的增长,提升其实时数据处理和洞察能力。

要了解更多关于 ClickHouse 以及实时分析如何提升您公司 AI 开发的信息,请注册免费试用并加入我们不断壮大的开发者社区。想要体验 Braintrust 在构建和优化 AI 应用程序方面的强大功能,请访问 braintrust.dev!

征稿启示

面向社区长期正文,文章内容包括但不限于关于 ClickHouse 的技术研究、项目实践和创新做法等。建议行文风格干货输出&图文并茂。质量合格的文章将会发布在本公众号,优秀者也有机会推荐到 ClickHouse 官网。请将文章稿件的 WORD 版本发邮件至:Tracy.Wang@clickhouse.com

​​联系我们

手机号:13910395701

邮箱:Tracy.Wang@clickhouse.com

满足您所有的在线分析列式数据库管理需求

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值