- 博客(216)
- 收藏
- 关注
原创 StarRocks 3.4 发布--AI 场景新支点,Lakehouse 能力再升级
自 StarRocks 3.0 起,社区明确了以 Lakehouse 为核心的发展方向。Lakehouse 的价值在于融合数据湖与数据仓库的优势,能有效应对大数据量增长带来的存储成本压力,做到 single source of truth 的同时继续拥有极速的查询性能,同时也为 AI 时代的多样化数据需求提供可扩展的高效访问能力。构建 Lakehouse 后,你将拥有开放统一的数据存储与基于一份数据,支持多样化的 workload,服务企业 AI、BI 的数据应用,进而实现的业务价值。
2025-01-21 14:25:46
1130
原创 湖仓进化,极速统一|StarRocks 2024 社区年度报告
延伸阅读:Lakehouse 白皮书 | 从理论到落地的现代数据架构升级指南StarRocks 开源三周年:初心不忘,征程不止!StarRocks Awards 2024 年度贡献人物StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!更多交流,联系我们:StarRocks
2025-01-21 11:10:21
123
原创 从 Spark 到 StarRocks:实现58同城湖仓一体架构的高效转型
在使用 StarRocks 的过程中,我们从实践中总结出了关于性能、稳定性和易用性的关键经验。
2025-01-20 20:16:40
1654
原创 StarRocks Awards 2024 年度贡献人物
这个奖项分为两个主要类别:以代码贡献为主的“DEV”类和以布道为主的“Advocacy”类,并根据加入社区的时间与贡献分成了 Master 与 Knight 两个等级。在过去一年,StarRocks 在 Lakehouse 与 AI 等关键领域取得了显著进步,其卓越的产品功能极大地简化和提升了数据分析的效率,使得。以下是 StarRocks Awards 2024 的获奖者名单及得奖人们给社区的一些话,期待明年看到更多新面孔出现在这份荣誉榜上!
2025-01-09 18:26:21
599
原创 直播预告|StarRocks 3.4,打造 AI 时代的智能数据基座,应用场景全面扩展
随着新年的到来,StarRocks 3.4 即将上线,为 AI Workload 和更多应用场景提供强大支持!此次升级聚焦于提升 AI 场景支持,并扩展更多应用场景,全方位提升数据分析体验。1 月 15 日(周三)晚 19:00,我们特别邀请了镜舟科技的 PM 李蛟,与大家一起深入解读 3.4 版本的亮点功能。优化性能,提升易用性,进一步完善对 Iceberg 和 Delta Lake 的支持。:支持优雅退出、checkpoint,备份与恢复功能更全面。统一分区设计,高并发实时导入与批量导入更易用。
2025-01-07 20:08:11
215
原创 40% 降本:多点 DMALL x StarRocks 的湖仓升级实战
在 StarRocks 的升级之路中,我们曾尝试压缩单个 CN Pod 的内存,扩大 CN Pod 的数量,以提升 Kubernetes Node 的装箱率。但测试后发现,这种优化方式并不适用于 StarRocks。即使是在 Kubernetes 部署模式下,StarRocks 也需要配置较大内存和 CPU 的 Pod 来保证服务质量。多点 DMALL 专注于 To B 业务,在“降本增效”的大背景下,客户对于成本和价值的敏感度更高。
2025-01-03 14:40:21
985
原创 StarRocks 存算分离在得物的降本增效实践
此次迁移达成了预期的成本和性能的收益目标,也拓展了集群未来的成长空间,也让业务团队和引擎团队都更加的了解 StarRocks,收获大量迁移经验,为将来迁移其他业务提供了有说服力的范例。在迁移过程中,我们与社区保持了紧密的联系,获得了社区大量帮助,也贡献了大量 patch 给社区,减少社区其他人需要踩的坑。在我们得物内部 StarRocks 的未来规划中,我们也将继续深度参与社区。StarRocks。
2024-12-27 16:01:01
1793
原创 深入解析 StarRocks 物化视图:全方位的查询改写机制
本文主要介绍了 StarRocks 中物化视图查询改写的技术原理,从优化器的执行流程,到对不同查询的处理 Join、Aggregation、View、Union 等,以及内部视角的反省和外部视角的对比。希望本文能够对关心技术原理的读者有所帮助,对 StarRocks 的用户带来更多的技术洞察和业务启发
2024-12-20 16:14:31
993
原创 Lakehouse is ALL you need
回到今天的主题——。对于数据工程师:无需维护复杂的 ETL Pipeline对于数据分析师:可以实时高效地在数据湖上进行探索和分析对于数据科学家:直接访问数据湖上的开放数据,构建 AI 应用对于企业的经营管理者:通过简单高效的数据分析,实时推动企业经营决策Lakehouse 的确拥有非常大价值,而 StarRocks 作为最适合 BI 数据分析的 Lakehouse 引擎,可以让数据湖中的数据高效地转化为价值。正是你们的努力,使得 StarRocks 不断成长和进步。
2024-12-17 19:10:00
1709
原创 StarRocks Summit Asia 2024 全部议程公布!
随着企业数字化转型深入,云原生架构正成为湖仓部署的新标准。弹性扩展、资源隔离、成本优化,帮助企业在云上获得了更高的灵活性和效率。与此同时,云原生架构也为湖仓与 AI 的深度融合奠定了基础。在过去一年,湖仓技术与 AI 的结合催生了许多创新应用。从实时特征工程到大规模向量检索,从智能查询优化到自适应资源调度,湖仓架构正在和 AI 碰撞出更多新场景、新故事,StarRocks Summit Asia 2024 分论坛将带为你揭晓这些创新洞察和成熟实践。
2024-11-14 20:22:33
605
原创 StarRocks 在 Shopee 数据产品的实践
StarRocks 是一款 SQL 查询引擎,能够在数据湖仓上提供数据仓库级别的性能。StarRocks 是一款出色的分析引擎,具有强大的功能,例如向量化执行引擎、基于成本的优化器、数据缓存和具有透明查询重写能力的物化视图。除了其自管理的专有表格式外,它还支持直接查询大多数流行的数据湖表格式,如 Hive、Iceberg、Delta Lake 和 Hudi。借助其内置的目录功能,只需一个创建外部目录的 SQL 语句,即可立即部署 StarRocks 并查询数据湖表。
2024-11-07 17:25:31
1103
原创 Paimon x StarRocks 助力喜马拉雅构建实时湖仓
首先,简要介绍一下喜马拉雅的业务。我们的直播业务主要分为音频直播、视频直播以及多人娱乐厅三大类。音频直播:由专业主播为用户提供有声书、知识讲座等内容。视频直播:与市面上多数视频直播类似,包括主播表演和游戏直播等内容。多人娱乐厅:为用户提供一个互动交流的平台,他们可以与主持人共同参与讨论或活动。
2024-10-31 20:27:48
1002
原创 啊?原来社区大佬们是这样的人!
你们认识的社区大佬们都是怎样的?在社区里热心回答用户的问题、时常在各平台输出干货或是提 PR 的手速快的惊人?今天程序员节我们不聊代码,我们要来揭秘大佬们鲜为人知的一面,分享他们在生活中的那些隐藏技能:在高强度的工作下如何成为时间管理大师?如何狂减 90 斤,在短短一年间成为健身达人?他们是如何在开源社区里不断成长?与来自世界各地的开发者交流的时候又有哪些文化/语言上的趣事?在 AI 时代下,大佬们是如何保持高效学习的?
2024-10-25 18:17:05
364
原创 洞见数据未来,StarRocks Summit Asia 2024 即将启幕!
数据量和数据类型的需求飞速上涨,我们不仅需要将历史上各种基础设施中的数据进行分析使用,还要关注性能、灵活性、性价比,以及确保单一可信数据源。本届峰会,我们将深入探讨 "Data + AI" 时代下的极速统一架构—— Lakehouse 在各行业的应用与实践、云原生架构优势和更多创新应用场景,探索数据的无限可能。StarRocks 社区现诚挚地邀请在数据库技术、AI 领域内的企业机构、社区和媒体伙伴一起共建共创,推进数据与 AI 生态和行业交流和技术进步。在 AI 时代,我们需要怎样的数据基础软件?
2024-10-24 19:46:54
365
原创 StarRocks Lakehouse 快速入门——Hive Catalog
Apache Hive 是一个分布式、容错的数据仓库系统,能够实现大规模的分析。Hive Metastore (HMS) 提供了一个元数据存储库,可以轻松分析这些元数据以做出基于数据的决策,因此它是许多数据湖架构中的关键组件。Hive 构建于 Apache Hadoop 之上,并通过 HDFS 支持在 S3、ADLS、GS 等存储上的数据管理。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。
2024-10-17 17:45:57
820
原创 七猫如何用StarRocks 打造用户增长新引擎?
七猫的数仓团队主要是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。我加入七猫大约两年时间,加入后第一件事就是引入 StarRocks。现在七猫有五套 StarRocks 集群在生产环境投入了使用。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那我们是如何维护和管理这些数据的呢?下面会通过一张简化版的数据架构图来介绍。这些数据会通过日志埋点的形式上报到日志接收系统。日志接收系统会将用户行为数据和广告数据进行分流,分别存在两个 Kafka 里面。
2024-09-27 16:31:51
1158
原创 饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
作者:王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:1. 饿了么实时数仓演进之路2. 实时湖仓方案选型与探索3. 实时湖仓规划及展望。
2024-09-26 18:00:34
1631
1
原创 StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!
今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!
2024-09-10 19:56:51
505
2
原创 StarRocks Lakehouse 快速入门——Apache Iceberg
Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式,这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案,于 2018 年在 Apache 孵化器下开源,并在 2020 年毕业。Apache Iceberg 作为一种复杂的开放表格式,位于计算引擎(如 Flink 和 Spark)和存储格式(如 ORC、Parquet 和 Avro)之间。它作为一个中间件层,抽象了底层数据存储格式的复杂性,并向计算框架上层提供了统一的表格语义。
2024-09-06 14:34:24
1560
原创 云原生主键模型:高效、弹性,省钱又省心
无论是大批导入或是小批实时导入,云原生主键索引性能与本地磁盘索引性能基本持平。在弹性调度场景中,得益于云原生的架构,云原生持久化索引的延迟性能提升达到了本地磁盘持久化索引的 10 倍。
2024-09-02 15:07:25
827
原创 StarRocks Lakehouse 快速入门——Apache Paimon
Apache Paimon (后简称 Paimon)起源于 Apache Flink (后简称 Flink)的一个子项目,起初它只是 Flink 内置的 Table Store 的一个格式,经过了几年的发展后,在 2024 年成功从 Apache 软件基金会(ASF)孵化器毕业,成为正式的顶级项目。Paimon 围绕具有 ACID 特性的数据湖存储构建,支持 DML 操作, 可以完整地支持批处理和流处理。它创新性地将 LSM Tree 与湖格式相结合,具有高效的实时更新能力与 compaction 效率。
2024-08-15 20:22:12
1255
原创 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升
Pinterest 是一个视觉发现平台,用户可以在上面找到食谱、家居和风格灵感等创意。该平台拥有超过5亿月活跃用户,为广告商提供了重要的广告机会。广告商可以利用数据来分析用户行为,以取得更优的广告表现。Partner Insights 是 Pinterest 提供给广告商的工具,允许他们通过定制的仪表板获取实时洞察。这些洞察帮助广告商了解广告策略的效果,并进行数据驱动的调整,提高广告投资回报率。
2024-08-09 17:03:19
828
原创 StarRocks on AWS Graviton3,实现 50% 以上性价比提升
基于 StarRocks 当前的优化情况和最新的测试数据来看,StarRocks on Graviton3 (C7g) 的总体性能比 Ice Lake 8375C (C6i) 实现了30%以上的综合性能提升。再结合 AWS Graviton3 自身的价格优势(C7g 相对于C6i 有 15% 的成本优化),StarRocks on C7g 相对于 C6i 可以实现 50% 以上的性价比提升。
2024-07-18 15:37:56
1071
原创 成本下降50%,腾讯音乐StarRocks存算分离大规模实践!
StarRocks 存算分离替换上千节点 Clickhouse 和 Druid 集群,效率不变,成本下降50%。
2024-07-12 18:45:36
1291
原创 数仓还是湖仓?专家圆桌深度解析
Apache Iceberg 代表:周劲松——Apache Amoro (incubating) PPMC 成员/腾讯云专家工程师(前网易平台开发专家)Apache Hudi 代表:徐昱——Apache Hudi & StarRocks Contributor/vivo 湖仓组件研发负责人Apache Paimon 代表:王日宇——StarRocks Committer/阿里云高级研发工程师。
2024-07-05 16:42:09
959
原创 StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!
在 Lakehouse 架构中,缓存设计是实现高效数据处理的关键一环。对于存算分离架构来说,缓存的重要性不言而喻。无论是 Hive、Iceberg、Paimon 等外表,还是 StarRocks 存算分离的内表,缓存命中率的高低直接影响性能的优劣。在缓存命中情况下,性能已经能够追平存算一体的架构,但如何合理、稳定地将热数据保存在缓存中却是一大挑战。StarRocks 原生开发的缓存功能为用户提供了开箱即用的便捷体验。无需复杂的配置,用户即可利用强大的缓存机制提升数据处理性能。
2024-07-03 20:04:13
1386
原创 极速查询:StarRocks 存算分离 Compaction 原理 & 调优指南
作者:丁凯,StarRocks TSC member/镜舟科技云原生技术负责人StarRocks 在数据摄入过程中,每次操作都会创建一个新的数据版本。在查询时,为了得到准确的结果,必须将所有版本合并。然而,随着历史数据版本的累积,需要合并的文件数量增多,这将显著降低查询效率。为了解决这个问题,StarRocks 会定期执行内部任务,通过合并历史数据版本来消除重复记录,这个过程被称为 Compaction。
2024-06-18 20:15:42
1729
原创 StarRocks x 腾讯视频:指标中台驱动湖仓一体建设实践
首先来介绍一下腾讯视频相关业务背景和技术背景。最后对指标中台以及湖仓一体进行一下总结和展望。我们未来会建立以指标为中心,定义、生产、消费、质量保障为一体的指标驱动式数据消费的新模式。在指标生产部分,提供标准化配置化的生产。指标消费部分提供一次定义,多处使用。指标质量部分提供全链路全面的可观测和诊断。指标运营部分降低成本,优化指标生产消费的流程,最终形成以指标驱动的数据消费新模式。
2024-06-17 15:08:48
1220
原创 StarRocks vs. Trino: 高并发性能背后的技术优势是什么?
Trino(之前称 PrestoSQL)项目最初由 Meta 开发,旨在让数据分析师能够在广泛的 Apache Hadoop 数据仓库上执行交互式查询。其高效处理大型数据集和复杂查询的能力,以及多数据源连接的灵活性,使其迅速成为大规模组织的首选数据分析工具。随着时间的推移,用户对数据分析的需求不断演变。移动互联网和 SaaS 应用的兴起,实时分析变得至关重要。因此,企业需要更高性能、更高并发、低延迟的数据分析引擎来满足不断增长的数据分析需求。在这种情况下,越来越多的用户开始寻找替代方案。
2024-06-11 16:52:22
1135
原创 Data Lakehouse:你的下一个数据仓库
Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的最佳选择,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64。
2024-05-29 14:46:06
995
原创 优化数据查询性能:StarRocks 与 Apache Iceberg 的强强联合
Apache Iceberg 是一种开源的表格格式,专为在数据湖中存储大规模分析数据而设计。它与多种大数据生态系统组件高度兼容,相较于传统的 Hive 表格格式,Iceberg 在设计上提供了更高的性能和更好的可扩展性。它支持 ACID 事务、Schema 演化、数据版本化、隐式分区和跨引擎兼容性等功能,使其特别适合处理数据密集型的大数据分析任务。然而,Iceberg 的使用也伴随着一些挑战,如较高的上手难度、后台维护需求、性能优化和治理策略等。
2024-05-23 15:46:09
1172
原创 AI 写 SQL 真的靠谱吗?腾讯游戏在 AI+ 湖仓一体的实践
作者:腾讯游戏数据技术负责人 刘岩腾讯游戏是全球领先的游戏开发和运营商,其数据团队拥有十余年、700+ 款大型游戏的数据工作沉淀。复杂的业务环境下,腾讯游戏数据团队每年需要处理超过 3 万个数据提取需求,SQL 编写需要耗费大量时间和精力,如何提升效率成为了一个关键问题。本文介绍了腾讯游戏数据团队如何通过最新的大语言模型技术,基于StarRocks构建一个高效的湖仓一体 +AI 数据管理新范式,解决游戏业务数据提取需求上痛点的实践经验。
2024-05-15 19:14:34
1413
1
原创 StarRocks x Paimon 构建极速实时湖仓分析架构实践
当前 StarRocks x Paimon 的能力主要包括:支持各类存储系统,包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS支持 HMS 以及阿里云 DLF 元数据管理系统支持 Paimon 的 Primary Key 和 Append Only 表类型查询支持 Paimon 系统表的查询,常见例如 Read Optimized 表,snapshots 表等支持 Paimon 表和其他类型数据湖格式的关联查询支持 Paimon 表和 StarRocks 内表的关联查询。
2024-04-26 10:43:33
1983
原创 StarRocks 实战指南:100+ 大型企业背后的最佳实践经验
编者荐语:本文由镜舟科技的 DBA 团队负责人景丹撰写。在过去三年中,他服务了上百家 StarRocks 大型企业用户,并总结了最佳使用方法。文章涵盖了部署、建模、导入、查询和监控五个模块。以下文章来源于小景说 ,作者镜舟科技 DBA。
2024-04-23 17:04:44
1167
原创 升级啦!探索全新 StarRocks 中文社区与高效使用秘籍!
眼尖的朋友可能已经注意到,StarRocks 中文社区最近换上了全新的皮肤。是的,我们 StarRocks 的聚集地升级了!🎉自成立两年半以来,StarRocks 中文社区不断壮大,现已发展成为一个拥有数万名成员的活跃社区。为了帮助大家更便捷地获取最新资讯、降低参与社区的门槛,我们对中文社区进行了一次重要的升级。
2024-04-17 20:06:17
400
原创 StarRocks 物化视图:指标平台性能提升的新引擎
在这样的背景下,StarRocks 以其卓越的性能和灵活的物化视图功能,成为了构建指标平台的理想选择。平台的复杂性增加,涉及更多指标维度和衍生方法,以及更广泛的业务服务,这使得 Kylin 构建 Cube 时的性能问题逐渐显现,特别是在 Cube 构建过程中的性能开销较大。指标平台通过简化这一流程,使得分析工程师 (analytic engineer)能够统一数据工程和数据分析的角色,从业务视角出发定义一致的指标,并通过平台自动生成相应的 SQL 查询和 BI 报表,从而提高效率和准确性。
2024-04-12 17:15:37
1546
原创 基于 StarRocks 的风控实时特征探索和实践
编者荐语:金融风控特征在实时业务中至关重要,是评估和管理风险的核心指标。经过评估,滴滴最终选择了 StarRocks 作为验证选项的落地方案。通过 StarRocks 实现流批一体,成功解决了风控实时特征流批分离的难题,缩短了开发周期,实现了更快的需求交付。
2024-04-12 16:35:50
1229
原创 StarRocks 助力小红书离线数仓提效,提升百倍回刷性能!
OLAP 引擎在实时数仓建设方面已经得到了广泛的应用。我们的实践证明,结合业务特点,在处理中小规模数据量时,使用 StarRocks 等分布式 OLAP 引擎替换 Spark ,承担更多的离线处理任务,可以显著提高数据仓库产出的速度和效率,达到降本增效的目的。展望未来,我们计划进一步探索 StarRocks 在湖仓一体和存算分离的应用场景,以构建更加高效、灵活的数据生产链路和自助分析产品。我们期待通过这些创新实践,能够为公司带来更强大的数据处理能力,支持业务的持续增长和决策的精准性。作者简介。
2024-03-26 19:48:35
1335
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅