• 博客(282)
  • 收藏
  • 关注

原创 从 SQL 到自然语言,下一代 Lakehouse 为何必须「AI 优先」

下一代 AI-first Lakehouse 的构建是一个系统性工程,需要从数据处理、存储引擎、计算架构、Agent 支持以及平台生态进行全方位升级。核心目标是打破结构化与非结构化数据的壁垒,将 AI 能力从应用层下沉至内核层,构建真正面向 AI 时代的新一代数据平台。

2026-04-07 22:56:49 364

原创 StarRocks I/O 模型揭秘(一):查询是如何被拆解与调度的?

从整体视角来看,StarRocks 的 I/O 执行链路通过 Morsel、Scan Operator、ChunkSource、ScanTask 与 ChunkBuffer 等组件的协同配合,构建了一套从数据调度、任务拆分到异步执行与结果消费的完整闭环。数据被以更细粒度拆分为可调度单元,通过动态队列实现负载均衡;扫描任务以异步方式下沉到 IO 线程池执行;读取结果再通过缓冲机制与计算链路解耦,从而实现高并发、低阻塞的数据处理流程。

2026-04-06 23:14:38 387

原创 从 Presto 到 StarRocks:作业帮架构升级实践

作业帮的 Presto 主要承载即席查询场景,天级查询规模在 2000~5000 次,但均值耗时在分钟级,整体性能偏慢;同时由于与 Yarn、HDFS 混部,高峰期宿主机 CPU 经常打满,资源争抢严重,查询体验波动明显。

2026-04-01 22:43:29 443

原创 广告投流第一战:如何用 StarRocks 搞定“起量监控”与“素材优选”?

广告投放的本质是在不确定性中快速迭代决策。每一次的数据分析都应该转化为可执行策略,通过引入 StarRocks,在流量获取阶段把起量监控变成实时智能决策引擎,让 CTR 与 eCPM 真正跑赢竞品。向量召回 + 实时监控,把测试周期从“天”压缩到“分钟级”,大幅减少试错预算,提升 CTR。2. 运营效率倍增:秒级监控 + 异常预警 + 精准人群分析,让团队从“拉数”中解放,专注策略与创意迭代。下期预告:广告投流第二战——如何利用 StarRocks 解决“转化归因”与“ROI 实时计算”难题?敬请期待。

2026-03-16 03:11:29 370

原创 从 Snowflake 到 StarRocks + Iceberg:Fanatics 在 6PB 规模下实现 90% 成本优化!

开源无国界。在本期「StarRocks 全球用户精选案例」中,我们走进全球领先的数字化体育平台——Fanatics。作为各大体育联盟(如 NFL、NBA、MLB)的官方合作伙伴,Fanatics 运营着 900 多家在线商店,服务全球超 1 亿用户。在这些业务背后,Fanatics 每天需要处理约 10 亿条事件数据,涵盖 800 多种事件类型。从个性化推荐到实时库存决策,高效的数据处理能力已成为其核心业务线的底层支撑。本文将详细介绍 Fanatics 如何将原本分散的技术栈,整合为。该架构在。

2026-03-16 01:50:50 377

原创 StarRocks + Paimon: 构建 Lakehouse Native 数据引擎

StarRocks 与 Paimon 的深度融合,代表了现代湖仓架构的重要演进方向。它不只是“能查数据湖”,而是真正“懂数据湖”——从架构统一、功能完善到性能极致优化,每一步都围绕真实业务场景展开。这套 Lakehouse Native 方案已在阿里集团内部多个高并发、低延迟场景中落地验证,为电商、物流、金融等业务提供坚实支撑。随着社区生态的持续壮大,我们有理由相信,StarRocks + Paimon 将成为企业构建下一代实时数据平台的核心引擎。

2026-02-14 21:50:45 592

原创 不止于极速查询!StarRocks 2025 年度回顾:深耕 Lakehouse,加速 AI 融合

2025 年,是 StarRocks 持续深耕与进化的一年。围绕 Lakehouse 与 AI 实时能力,多个关键能力在迭代与实践中渐次落地。项目的每一步前行,都得益于社区每一次真实的反馈与贡献。站在岁末年初,我们希望通过这篇文章,与大家共同回顾 2025 的重要时刻,并分享关于 2026 的规划与期待。

2026-02-04 21:45:55 901

原创 双 11 大促峰值不翻车:淘天集团 Paimon + StarRocks 大规模 OLAP 查询实战与优化

作者:朱奥 /淘天集团高级数据工程师导读:双 11 等大促场景会在短时间内集中爆发:运营与业务 BI 在开卖后的窗口期密集访问数据产品,瞬时请求量陡增,对查询引擎的稳定性、成本与治理体系提出极高要求。与此同时,业务对近实时数据产品的诉求持续增强,传统“多存储、多链路、依赖回刷”的模式在研发效率、回刷成本与响应速度上逐步暴露瓶颈。

2026-01-27 16:34:57 698

原创 一套底座支撑多场景:高德地图基于 Paimon + StarRocks 轨迹服务实践

Paimon + StarRocks 分层存储与高性能查询落地,兼顾实时、性能与成本

2026-01-19 11:36:06 634

原创 dbt+DataOps+StarRocks:构建一体化数据治理与智能分析平台实践

作者:胡翔,SJM Resorts 企业方案设计高级经理、dbt- starrocksContributor本文内容整理自在 StarRocks Connect 2025 上的演讲。文章将主要围绕三个方面展开:dbt 在数据建模与治理自动化中的核心作用;如何在实际工作中落地 DataOps;StarRocks 在实时与离线(批)场景下的技术突破及其实践案例分享。

2025-12-30 22:17:14 1184

原创 Fresha 的实时分析进化:从 Postgres 和 Snowflake 走向 StarRocks

全球美业平台如何通过混合架构重构,实现高频运营分析与低运维成本

2025-12-19 15:59:42 1210

原创 从小文件困局到“花小钱办大事”:StarRocks 存算分离批量导入优化实践

在存算分离架构下,“一次性导入海量历史数据”正成为被放大的隐形风险。本文介绍 StarRocks 如何从写入源头重构大导入路径:通过“内存→本地磁盘 spill→集中 merge→对象存储”,减少远程写入和重复开销,降低 S3 写入次数并放大文件粒度,释放本地 I/O 能力,从源头缓解小文件问题,帮助用户以更低投入获得更高效、更稳定的使用体验。

2025-12-12 15:55:17 904

原创 从分钟到秒级,从 ClickHouse 到 StarRocks:哈啰的实时进化之路

性能提速 5 倍,成本下降 80%,统一湖仓架构全面落地。

2025-11-27 21:22:49 1139

原创 StarRocks 性能实测:在 Coffee-shop Benchmark 中快 10 倍!

在评估数据库性能时,如何同时衡量“算得快”和“算得省”一直是工程师关注的核心问题。

2025-11-20 23:47:14 807

原创 StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready

写入即优化,查询更高效

2025-11-14 13:59:04 1080

原创 StarRocks 4.0:FlatJSON,让 JSON 查询像列存一样高效

StarRocks 4.0推出FlatJSON技术,大幅提升JSON查询性能。通过列式存储优化,自动识别高频JSON字段并转换为列存格式,配合索引、字典编码等技术,使JSON查询速度接近原生列存。相比传统JSON处理方案,FlatJSON显著降低了I/O和CPU开销,无需ETL即可实现高性能分析,适用于日志、埋点等半结构化数据分析场景,在测试中性能提升达10倍以上。该技术实现了灵活数据结构与高效分析能力的兼得。

2025-11-07 23:53:06 1102

原创 StarRocks 4.0:基于 Apache Iceberg 的 Catalog 中心化访问控制

StarRocks 4.0 已正式发布!这一版本带来了多项关键升级。接下来,我们将以每周一篇的节奏,逐一解析 4.0 的核心新特性。在多引擎协同访问同一数据湖的场景下,如何实现安全、统一且可审计的权限管理,是 Lakehouse 架构演进中的一项关键挑战。StarRocks 4.0 联合 Apache Iceberg,借助 REST Catalog 的统一治理能力与 JWT 身份认证、临时凭证机制(Vended Credential),为多引擎湖仓架构提供了一种全新的安全访问方式。

2025-11-02 21:37:47 1071

原创 告别 Hadoop,拥抱 StarRocks!政采云数据平台升级之路

政采云平台作为政府采购数字化的创新典范,集监管、交易、服务于一体,经过近九年的发展,已成为行业内服务范围最广、用户数量最多、交易最活跃、监管产品最丰富的跨区域、跨层级、跨领域的一体化采购云服务平台,日均处理海量高并发数据。Hadoop 作为早期构建大规模数据平台的基石,为政采云平台打开了低成本处理海量非结构化、半结构化数据的可能。然而,伴随业务激增、复杂分析需求及严苛的时效要求,曾经 “功臣” 的局限性和沉重包袱日益凸显,逐渐成为数据价值释放的 “枷锁”。

2025-10-30 10:44:55 1040

原创 StarRocks 在 Cisco Webex 的探索与实践

本文内容整理自 白旭 与 许鸿坤 两位嘉宾在 StarRocks Connect 2025 上的联合演讲。基于 Cisco Webex 的核心分析场景,分享了从 Pinot 技术栈迁移至 StarRocks 的完整实践路径——涵盖存算分离与存算一体架构的落地,以及多项性能与治理优化。迁移后,系统实现多项显著提升:- 查询性能提升超 50%,70% 的查询语句优于 Trino;- 物化视图让查询加速 10 倍以上;- Flat JSON 优化后磁盘占用降低 80%,查询时延减少 80%;

2025-10-29 15:38:43 1152

原创 StarRocks 4.0:Real-Time Intelligence on Lakehouse

全面解析 4.0 的核心特性,文末还有 1024 特别福利等你来领 🎁

2025-10-28 16:47:12 948

原创 StarRocks Community Monthly Newsletter (Sep)

StarRocks近期发布多个版本更新,涵盖功能增强与问题修复,包括v3.5.6优化Vacuum指标、v3.5.5新增日志信息、v3.4.8默认开启并行扫描等。社区动态方面,推出Java UDF文件自动检测工具,更新技术文档,并举办全球峰会StarRocks Summit 2025及中国区活动Connect 2025,分享行业实践案例。7-9月布道师精选文章评选出炉,多篇技术实战文章获奖,涵盖数据同步、性能优化等主题。积分兑换系统已升级,社区持续招募贡献者,推动数据分析技术发展。

2025-10-27 23:08:40 1043

原创 Kubernetes 场景下的 StarRocks 灾备体系:Cluster Snapshot 实践解析

当系统发生故障、误操作或区域性宕机时,Snapshot 可在分钟级完成快速恢复,最大限度减少数据丢失与业务中断风险。通过将完整集群状态进行快照化并备份至对象存储,Snapshot 简化了传统灾备方案的复杂流程,使灾难恢复更加高效与便捷。这一机制尤其适用于 金融、零售、SaaS 等对系统稳定性要求极高的关键业务场景。

2025-10-23 08:48:23 993

原创 从 ClickHouse 到 StarRocks 存算分离: 携程 UBT 架构升级实践

查询性能实现从秒级到毫秒级的跨越式提升

2025-10-18 19:44:20 1334

原创 StarRocks:Connect Data Analytics with the World

本文基于镜舟科技 CTO、StarRocks TSC 成员张友东在 StarRocks Connect 2025 活动上的主题分享整理而成。围绕大会的核心主题——“数据与世界的连接”,本文将从三个维度进行阐述:过去:StarRocks 通过开源的力量,将全球的社区用户紧密联系在一起。现在:StarRocks 正在推动数据与现代化数据分析应用的融合。未来:StarRocks 将进一步探索数据分析与 AI Agent 的结合。

2025-09-27 22:54:10 1019

原创 StarRocks 助力印度领先即时零售平台 Zepto 构建实时洞察能力

开源无国界,在本期 “StarRocks 全球用户精选案例” 中,我们走进印度即时零售品牌 Zepto。随着规模扩张,Zepto 借助 StarRocks 从 Postgres MVP 升级为生产级实时分析平台,单表每日导入 3000 万+ 行数据,在品牌看板上实现亚秒级查询,帮助品牌合作伙伴从“日报表”迈向 准实时洞察,快速响应市场、智慧决策。

2025-09-24 23:10:17 925

原创 StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

StarRocks Connect 2025峰会聚焦数据分析与AI融合 9月13日,StarRocks Connect 2025线上线下同步举行,以“连接”为主题,汇聚全球数万名开发者与行业专家。镜舟科技CTO张友东分享了StarRocks的发展历程,从性能引擎到AIAgent辅助数据建模的演进,并宣布Multi-warehouse企业级能力开源。峰会还展示了Shopee、携程、Cisco等企业的落地实践,证明StarRocks在实时分析、成本优化等方面的卓越表现。

2025-09-22 13:42:45 1001

原创 爱奇艺技术实践:基于 StarRocks 释放天玑买量数据价值

天玑买量平台服务于 UG 买量业务,由于业务特性,优化师需要丰富且准确的端内+端外数据来辅助投放决策。目前买量的数据有来自 UG 数仓的,有来自媒体 MAPI 拉取的,形式上有离线的,也有实时的。并且数据存储形式多样,业务数据主要使用 MySQL,离线数据基于数据湖写入 ClickHouse,实时数据基于 TiDB,在如此多异构数据的前提下,又有联合分析的场景,准确性和时效性都面临考验,因此我们决定基于 StarRocks 构建统一数仓,来消减异构数据带来的复杂性,同时支持业务对数据准确性和实时性的要求。

2025-09-22 13:37:15 1217

原创 淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由

当“秋天的第一杯奶茶”冲上热搜时,很多人看到的是用户的热情与订单的暴涨,而在背后,技术团队同样在全力以赴。自 4 月 30 日淘宝闪购上线以来,短短 100 天,业务团队创造了一个奇迹,技术团队则在高并发与海量数据的冲击下迎来前所未有的挑战。​闪购项目期间,亿级营销投入叠加多端流量,实时决策与调控对数据提出了分钟级的要求。为应对挑战,饿了么数据团队依托一年多的湖仓探索与沉淀,选择 StarRocks + Paimon 搭建实时湖仓架构,并通过物化视图优化、RoaringBitmap 去重和大查询治理

2025-09-04 02:37:55 1341

原创 欧洲数字化养殖平台 Herdwatch 借力 Iceberg + StarRocks 提升分析能力

本文将聚焦 Herdwatch 在构建现代化数据平台的探索历程,重点介绍其如何借助 Apache Iceberg 与 StarRocks,实现性能提升、成本优化与治理完善。

2025-08-27 23:35:01 1080

原创 欢乐互娱:StarRocks 助力游戏数据平台实现极速分析与高效运营

作者:康伟豪 欢乐互娱数据中台负责人欢乐互娱作为一家全球化的游戏研发与发行公司,业务涵盖 MMORPG 和 ACT 等多种品类,其产品在东南亚、日韩、美洲以及港澳台地区均有发行随着业务的不断扩展,欢乐互娱面临着日益增长的数据体量和复杂度挑战。公司的数据量从最初的每日百万级增长到每日百亿级,最高峰值甚至达到每日 150 亿条,这使得数据分析的需求和复杂度显著提升,对底层数据平台提出了更高的要求。

2025-08-25 05:02:22 1120

原创 告别 Count Distinct 慢查询:StarRocks 高效去重全攻略

摘要:本文针对大数据分析中高成本去重操作(CountDistinct)提出多维度优化方案。以SSB测试集的lineorder表为例,分析4类典型查询场景,提出函数替换、数据结构优化、类型转换和物化视图四类解决方案。其中重点阐述Bitmap精确去重、HLL近似去重等物化视图构建策略,对比了ArrayAgg、Bitmap_hash等技术路线在精度、性能和适用场景上的差异。通过合理选择优化方案,可在保证查询精度的前提下显著提升性能,如案例中通过bitmap_union(to_bitmap())实现精确去重加速,或

2025-08-18 01:46:27 1416

原创 从多引擎到统一平台:去哪儿网的 StarRocks 实践

去哪儿网数据平台通过引入StarRocks作为统一OLAP引擎,成功替代了原有的多引擎架构。该方案解决了兼容性、性能和运维等痛点,实现了集群规模达数十台、日PV超百万、查询P95达毫秒级的优异表现。文章详细介绍了从业务背景、选型评估到落地实践的全过程,重点阐述了基础建设中的监控体系、集群灾备和查询优化方案,并分享了QBI看板和趣分析等核心产品的迁移经验。通过语法兼容性改造和性能优化,StarRocks在去哪儿网实现了99%的Trino语法兼容率,查询性能提升超50%。未来规划包括Kubernetes部署和实

2025-08-09 00:20:08 1244

原创 金融科技新标杆:随行付大数据实时分析如何支撑百亿级秒级查询

随行付作为国内领先的支付基础设施平台,致力于携手合作伙伴与中小微企业,共建安全、稳定、高效运转的数字化支付生态,随着支付业务的快速发展,原有基于传统数据库 + Hive 与 Elasticsearch + Kudu + HBase 搭建的 Lambda 架构,逐渐暴露出实时性不足、架构复杂、数据冗余高等问题,为应对这一挑战,随行付重构了大数据分析体系,构建起以自研 Porter CDC + StarRocks + Elasticsearch 为核心的一体化实时架构,全面覆盖高并发明细查询、即席汇总分析和复杂

2025-08-06 23:34:40 1244

原创 Airtable 如何用 StarRocks 构建数据验证系统

归档冷数据至 S3,借助 StarRocks 实现一致性验证与存储降本作者:Riley ,Airtable 数据基础设施团队导读:开源无国界,在本期“StarRocks 全球用户精选案例”专栏中,我们将介绍总部位于旧金山的云端协作服务公司 Airtable。作为一家致力于让用户像操作表格一样轻松构建数据应用的企业,Airtable 在 2025 年完成了向 AI 原生应用平台 的转型,平台同时支持企业级安全与治理能力,并与外部系统集成,实现复杂业务流程的自动化。

2025-08-02 00:43:29 848

原创 Lakehouse x AI ,打造智能 BI 新体验

本文整理自瓴羊的王璟尧老师与镜舟科技石强老师的联合分享,围绕 Quick BI 在智能 BI 场景中的落地实践,深入探讨了 StarRocks 如何凭借 MPP 架构、实时分析能力与 AI 原生支持,成为智能分析的理想 Lakehouse 引擎底座,助力 BI 从“被动查询”迈向“主动决策”,开启数据“会说话”的新体验。

2025-07-25 23:54:32 1000

原创 StarRocks × MinIO:打造灵活高效的存算分离方案

“存算分离”(Decoupled Storage and Compute)是一种在现代数据系统中被广泛采用的架构设计。它将计算和存储解耦,使二者可以独立扩展,提升资源利用率并降低运维成本。StarRocks 从 3.0 版本开始支持这一架构,允许用户将数据存储从计算节点中剥离,实现更灵活、弹性的系统部署。

2025-07-21 00:27:38 1420

原创 StarRocks Community Monthly Newsletter (Jun)

StarRocks 社区六月月刊已上线,本期看点满满:精选活动回顾、4-6 月布道师精选文章 Top 10 出炉、优秀入围作品、新晋社区大使登场,以及布道师积分更新!

2025-07-14 03:25:29 1351

原创 金融科技新标杆:随行付大数据实时分析如何支撑百亿级秒级查询

随行付作为国内领先的支付基础设施平台,致力于携手合作伙伴与中小微企业,共建安全、稳定、高效运转的数字化支付生态,持续为不同行业与场景提供融合支付与经营的一体化数字化解决方案。

2025-07-03 23:45:17 888

原创 实战|StarRocks 通过 JDBC Catalog 访问 MongoDB 的数据

本文章介绍如何通过 StarRocks 的 JDBC Catalog 功能,结合 MongoDB BI Connector,将 MongoDB 数据便捷接入 StarRocks,实现数据打通和 SQL 查询分析,以下是整体流程图。

2025-06-30 01:34:52 1260

原创 StarRocks 3.5 新特性解读:Snapshot 快照恢复、大导入性能全面升级、分区管理更智能

自 2023 年 4 月推出存算分离架构以来,StarRocks 在性能优化和功能迭代方面不断加速,以持续满足企业日益增长的数据分析需求。最新发布的 StarRocks 3.5 版本再次聚焦用户痛点,带来了一系列实用的新特性:新增的 Snapshot 快照恢复机制有效提升数据安全与灾备能力,大规模数据导入流程的优化持续提升易用性与稳定性。

2025-06-29 23:46:32 1358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除