• 博客(199)
  • 收藏
  • 关注

原创 StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!

今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!

2024-09-10 19:56:51 350

原创 StarRocks Lakehouse 快速入门——Apache Iceberg

Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式,这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案,于 2018 年在 Apache 孵化器下开源,并在 2020 年毕业。Apache Iceberg 作为一种复杂的开放表格式,位于计算引擎(如 Flink 和 Spark)和存储格式(如 ORC、Parquet 和 Avro)之间。它作为一个中间件层,抽象了底层数据存储格式的复杂性,并向计算框架上层提供了统一的表格语义。

2024-09-06 14:34:24 1374

原创 云原生主键模型:高效、弹性,省钱又省心

无论是大批导入或是小批实时导入,云原生主键索引性能与本地磁盘索引性能基本持平。在弹性调度场景中,得益于云原生的架构,云原生持久化索引的延迟性能提升达到了本地磁盘持久化索引的 10 倍。

2024-09-02 15:07:25 722

原创 StarRocks Lakehouse 快速入门——Apache Paimon

Apache Paimon (后简称 Paimon)起源于 Apache Flink (后简称 Flink)的一个子项目,起初它只是 Flink 内置的 Table Store 的一个格式,经过了几年的发展后,在 2024 年成功从 Apache 软件基金会(ASF)孵化器毕业,成为正式的顶级项目。Paimon 围绕具有 ACID 特性的数据湖存储构建,支持 DML 操作, 可以完整地支持批处理和流处理。它创新性地将 LSM Tree 与湖格式相结合,具有高效的实时更新能力与 compaction 效率。

2024-08-15 20:22:12 999

原创 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升

Pinterest 是一个视觉发现平台,用户可以在上面找到食谱、家居和风格灵感等创意。该平台拥有超过5亿月活跃用户,为广告商提供了重要的广告机会。广告商可以利用数据来分析用户行为,以取得更优的广告表现。Partner Insights 是 Pinterest 提供给广告商的工具,允许他们通过定制的仪表板获取实时洞察。这些洞察帮助广告商了解广告策略的效果,并进行数据驱动的调整,提高广告投资回报率。

2024-08-09 17:03:19 741

原创 StarRocks on AWS Graviton3,实现 50% 以上性价比提升

基于 StarRocks 当前的优化情况和最新的测试数据来看,StarRocks on Graviton3 (C7g) 的总体性能比 Ice Lake 8375C (C6i) 实现了30%以上的综合性能提升。再结合 AWS Graviton3 自身的价格优势(C7g 相对于C6i 有 15% 的成本优化),StarRocks on C7g 相对于 C6i 可以实现 50% 以上的性价比提升。

2024-07-18 15:37:56 978

原创 成本下降50%,腾讯音乐StarRocks存算分离大规模实践!

StarRocks 存算分离替换上千节点 Clickhouse 和 Druid 集群,效率不变,成本下降50%。

2024-07-12 18:45:36 1083

原创 数仓还是湖仓?专家圆桌深度解析

Apache Iceberg 代表:周劲松——Apache Amoro (incubating) PPMC 成员/腾讯云专家工程师(前网易平台开发专家)Apache Hudi 代表:徐昱——Apache Hudi & StarRocks Contributor/vivo 湖仓组件研发负责人Apache Paimon 代表:王日宇——StarRocks Committer/阿里云高级研发工程师。

2024-07-05 16:42:09 868

原创 StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!

在 Lakehouse 架构中,缓存设计是实现高效数据处理的关键一环。对于存算分离架构来说,缓存的重要性不言而喻。无论是 Hive、Iceberg、Paimon 等外表,还是 StarRocks 存算分离的内表,缓存命中率的高低直接影响性能的优劣。在缓存命中情况下,性能已经能够追平存算一体的架构,但如何合理、稳定地将热数据保存在缓存中却是一大挑战。StarRocks 原生开发的缓存功能为用户提供了开箱即用的便捷体验。无需复杂的配置,用户即可利用强大的缓存机制提升数据处理性能。

2024-07-03 20:04:13 1143

原创 极速查询:StarRocks 存算分离 Compaction 原理 & 调优指南

作者:丁凯,StarRocks TSC member/镜舟科技云原生技术负责人StarRocks 在数据摄入过程中,每次操作都会创建一个新的数据版本。在查询时,为了得到准确的结果,必须将所有版本合并。然而,随着历史数据版本的累积,需要合并的文件数量增多,这将显著降低查询效率。为了解决这个问题,StarRocks 会定期执行内部任务,通过合并历史数据版本来消除重复记录,这个过程被称为 Compaction。

2024-06-18 20:15:42 1312

原创 StarRocks x 腾讯视频:指标中台驱动湖仓一体建设实践

首先来介绍一下腾讯视频相关业务背景和技术背景。最后对指标中台以及湖仓一体进行一下总结和展望。我们未来会建立以指标为中心,定义、生产、消费、质量保障为一体的指标驱动式数据消费的新模式。在指标生产部分,提供标准化配置化的生产。指标消费部分提供一次定义,多处使用。指标质量部分提供全链路全面的可观测和诊断。指标运营部分降低成本,优化指标生产消费的流程,最终形成以指标驱动的数据消费新模式。

2024-06-17 15:08:48 1078

原创 StarRocks vs. Trino: 高并发性能背后的技术优势是什么?

Trino(之前称 PrestoSQL)项目最初由 Meta 开发,旨在让数据分析师能够在广泛的 Apache Hadoop 数据仓库上执行交互式查询。其高效处理大型数据集和复杂查询的能力,以及多数据源连接的灵活性,使其迅速成为大规模组织的首选数据分析工具。随着时间的推移,用户对数据分析的需求不断演变。移动互联网和 SaaS 应用的兴起,实时分析变得至关重要。因此,企业需要更高性能、更高并发、低延迟的数据分析引擎来满足不断增长的数据分析需求。在这种情况下,越来越多的用户开始寻找替代方案。

2024-06-11 16:52:22 958

原创 Data Lakehouse:你的下一个数据仓库

Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的最佳选择,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64。

2024-05-29 14:46:06 905

原创 优化数据查询性能:StarRocks 与 Apache Iceberg 的强强联合

Apache Iceberg 是一种开源的表格格式,专为在数据湖中存储大规模分析数据而设计。它与多种大数据生态系统组件高度兼容,相较于传统的 Hive 表格格式,Iceberg 在设计上提供了更高的性能和更好的可扩展性。它支持 ACID 事务、Schema 演化、数据版本化、隐式分区和跨引擎兼容性等功能,使其特别适合处理数据密集型的大数据分析任务。然而,Iceberg 的使用也伴随着一些挑战,如较高的上手难度、后台维护需求、性能优化和治理策略等。

2024-05-23 15:46:09 854

原创 AI 写 SQL 真的靠谱吗?腾讯游戏在 AI+ 湖仓一体的实践

作者:腾讯游戏数据技术负责人 刘岩腾讯游戏是全球领先的游戏开发和运营商,其数据团队拥有十余年、700+ 款大型游戏的数据工作沉淀。复杂的业务环境下,腾讯游戏数据团队每年需要处理超过 3 万个数据提取需求,SQL 编写需要耗费大量时间和精力,如何提升效率成为了一个关键问题。本文介绍了腾讯游戏数据团队如何通过最新的大语言模型技术,基于StarRocks构建一个高效的湖仓一体 +AI 数据管理新范式,解决游戏业务数据提取需求上痛点的实践经验。

2024-05-15 19:14:34 1238 1

原创 StarRocks (江)湖英雄召集令!

We want you!英雄们,一起建设湖仓生态吧!

2024-05-09 20:05:45 744

原创 StarRocks 跨集群数据迁移,SDM 帮你一键搞定!

告别复杂,迎接效率

2024-05-09 10:57:04 1267

原创 StarRocks x Paimon 构建极速实时湖仓分析架构实践

当前 StarRocks x Paimon 的能力主要包括:支持各类存储系统,包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS支持 HMS 以及阿里云 DLF 元数据管理系统支持 Paimon 的 Primary Key 和 Append Only 表类型查询支持 Paimon 系统表的查询,常见例如 Read Optimized 表,snapshots 表等支持 Paimon 表和其他类型数据湖格式的关联查询支持 Paimon 表和 StarRocks 内表的关联查询。

2024-04-26 10:43:33 1663

原创 StarRocks 实战指南:100+ 大型企业背后的最佳实践经验

编者荐语:本文由镜舟科技的 DBA 团队负责人景丹撰写。在过去三年中,他服务了上百家 StarRocks 大型企业用户,并总结了最佳使用方法。文章涵盖了部署、建模、导入、查询和监控五个模块。以下文章来源于小景说 ,作者镜舟科技 DBA。

2024-04-23 17:04:44 978

原创 升级啦!探索全新 StarRocks 中文社区与高效使用秘籍!

眼尖的朋友可能已经注意到,StarRocks 中文社区最近换上了全新的皮肤。是的,我们 StarRocks 的聚集地升级了!🎉自成立两年半以来,StarRocks 中文社区不断壮大,现已发展成为一个拥有数万名成员的活跃社区。为了帮助大家更便捷地获取最新资讯、降低参与社区的门槛,我们对中文社区进行了一次重要的升级。

2024-04-17 20:06:17 314

原创 StarRocks 物化视图:指标平台性能提升的新引擎

在这样的背景下,StarRocks 以其卓越的性能和灵活的物化视图功能,成为了构建指标平台的理想选择。平台的复杂性增加,涉及更多指标维度和衍生方法,以及更广泛的业务服务,这使得 Kylin 构建 Cube 时的性能问题逐渐显现,特别是在 Cube 构建过程中的性能开销较大。指标平台通过简化这一流程,使得分析工程师 (analytic engineer)能够统一数据工程和数据分析的角色,从业务视角出发定义一致的指标,并通过平台自动生成相应的 SQL 查询和 BI 报表,从而提高效率和准确性。

2024-04-12 17:15:37 1322

原创 基于 StarRocks 的风控实时特征探索和实践

编者荐语:金融风控特征在实时业务中至关重要,是评估和管理风险的核心指标。经过评估,滴滴最终选择了 StarRocks 作为验证选项的落地方案。通过 StarRocks 实现流批一体,成功解决了风控实时特征流批分离的难题,缩短了开发周期,实现了更快的需求交付。

2024-04-12 16:35:50 1113

原创 StarRocks 助力小红书离线数仓提效,提升百倍回刷性能!

OLAP 引擎在实时数仓建设方面已经得到了广泛的应用。我们的实践证明,结合业务特点,在处理中小规模数据量时,使用 StarRocks 等分布式 OLAP 引擎替换 Spark ,承担更多的离线处理任务,可以显著提高数据仓库产出的速度和效率,达到降本增效的目的。展望未来,我们计划进一步探索 StarRocks 在湖仓一体和存算分离的应用场景,以构建更加高效、灵活的数据生产链路和自助分析产品。我们期待通过这些创新实践,能够为公司带来更强大的数据处理能力,支持业务的持续增长和决策的精准性。作者简介。

2024-03-26 19:48:35 1200

原创 StarRocks 助力金融营销数字化进化之路

作者:平安银行 数据资产中心数据及 AI 平台团队负责人 廖晓格平安银行五位一体,做零售金融的领先银行,五位一体是由开放银行、AI 银行、远程银行、线下银行、综合化银行协同构建的数据化、智能化的零售客户经营模式,这套模式以数据为基础,AI 为内核,通过画像识别,基于场景数据分析,通过高效组织内部资源,为客户提供精准服务,实现零售转型业务增长的第二曲线。通过颠覆传统“以产品为中心”模式,真正实现以客户为中心、以 AI 、大数据为驱动,以 KYC/KYP/KYATO 方法论打造技术架构及业务模块。

2024-03-21 20:30:25 1073

原创 腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

作者:腾讯大数据 高级工程师 陈九天小编导读: 腾讯天穹是协同腾讯内各 BG 大数据能力而生的 Oteam,作为腾讯大数据领域的代名词,旨在拉通大数据各个技术组件,打造一个具有统一技术栈的公司级大数据平台体系。从底层数据接入、数据存储、资源管理、计算引擎、作业调度,到上层数据治理及数据应用等多个环节,支持腾讯内部近 EB 级数据的存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。

2024-03-15 17:23:47 999

原创 StarRocks 易用性全面提升:数据导入可以如此简单

一般情况下,建议直接使用 **date_trunc() 函数来指定分区方式**(也即[「时间函数表达式分区」](https://docs.starrocks.io/zh/docs/table_design/expression_partitioning/#%E6%97%B6%E9%97%B4%E5%87%BD%E6%95%B0%E8%A1%A8%E8%BE%BE%E5%BC%8F%E5%88%86%E5%8C%BA))。并且,后续还会融入 Routine Load 的功能,将流式数据的导入也统一进来。

2024-03-13 20:21:17 1234

原创 QPS 提升 10 倍!滴滴借助 StarRocks 物化视图实现低成本精确去重

同步和异步物化视图都支持透明的查询改写,依照这样的构建逻辑,用户基于原始明细表查询时,会遵循异步物化视图->同步物化视图->原始明细表的优先级来进行查询加速,从而保证了查询整体的实效性。对于可累加维度,只需创建一个基于该维度的异步物化视图,不需要为每个不同的可累加维度组合创建单独的视图,因为结果是可以复用的。由于看板查询都是基于平台配置的,自动生成的查询 SQL,因此通过分析历史查询记录,提取高频查询,进行物化视图的自动创建,可以减少人工参与,从而更有利于实现技术的更大规模应用和推广。

2024-03-01 13:36:15 1261

原创 vivo 基于 StarRocks 构建实时大数据分析平台,为业务搭建数据桥梁

随着业务规模向全球发展,vivo 的分销代理系统覆盖用户量级飞速增长,营销、计价、订单、库存等业务系统均需要实时数据来保证销售业务精准稳定运营,这使得原有数仓架构的访问量持续增长,同时,随着各种大数据分析相关新业务的上线, Trino 负载越来越高,逐渐无法满足访问量持续增长带来的查询压力。而随着公司数字化服务的演进,业务诉求和技术架构有了新的调整,已有的基于 Trino 的架构面临着数据时效、查询性能、并发能力、复杂运维等方面的瓶颈,为此 vivo 大数据团队进行了一系列技术架构的探索和实践。

2024-02-21 10:22:54 1115

原创 8分钟带你体验 Flink CDC 3.0 实现 MySQL 与 StarRocks 实时数据同步

2023年12月, Flink Forward Asia 发布了新一代的端到端数据集成框架 Flink CDC 3.0,该版本采用了以 Flink 为基础的端到端流式 ELT 数据集成框架,支持将数据先导入到下游系统,然后在下游系统中进行加工。在该版本中,社区已支持实时同步 MySQL 数据至 StarRocks 的链路,用户可以利用 StarRocks 强大的预计算能力和物化视图等功能在 StarRocks 中完成高效的加工,大大简化数据同步链路。提供全量和增量的实时数据同步能力。

2024-02-18 14:41:50 1692

原创 StarRocks 1 月社区动态(2024)

当前,证券行业对数据的时效性、多样性和灵活性提出了更高的要求,为了解决实时数仓的挑战,申万宏源于 2023 年引入 StarRocks 对实时数仓整体架构进行了新的设计,目前基于 StarRocks 构建的实时数仓已经在申万宏源的财富管理类、投资研究类和风险管理类等多个场景中得到应用。新的一年,也请大家查收最新一月的社区动态。凭借所有社区参与者的支持,StarRocks 在2023年不断进化,锤炼核心功能,打磨全新特性,成功实现了从全场景OLAP到云原生湖仓的全面升级,成为湖仓新范式的造浪者;

2024-02-05 19:07:54 1515

原创 京东物流基于 StarRocks 的数据分析平台建设

最下层左侧是生产系统数据区;报表生成之后,有时需要互相传阅,在 Excel 非常多的情况下,大家互相传输,有时会用到一些线下的传输工具,导致数据来源不明晰,由于传输过程中有很多人工参与,协同比较困难,数据的时效性、安全性都得不到保障,并且存在大量重复性工作,性能体验非常差。在我们的业务场景中,当一个订单从商城域进入物流域后,会经过很多环节,从仓储到分拣,再到配送、拓投,链条非常长,中间系统特别多,数据也比较多,各个系统产生的数据被存储到各种各样的异构存储里,一线运营人员在找数据时存在一定困难。

2024-02-02 13:52:10 1458

原创 湖仓新范式的造浪者 | StarRocks 2023 年度总结(文末福利)

最后,欢迎来 StarRocks 论坛写下你对社区 2024 年的期望,我们还有好礼相赠。大胆的留下你的想法,万一实现了呢!StarRocks 峰会纪念T恤 *10 (花样可 4 选择 1,因为要定制,年后才会开始寄送!社区的进步离不开大家的支持,新的一年我们也期望能与更多的小伙伴们大步前行、共同成长。你希望社区提供什么活动?你最希望社区推出什么 feature?你最希望社区跟哪个大数据生态组件结合?StarRocks 鼠标垫 *5。你最希望社区提供怎样的内容?B站季度大会员 *5。

2024-01-26 15:53:19 468

原创 申万宏源基于 StarRocks 构建实时数仓

这样,所有历史数据在进入后都可以在这里沉淀,并且得益于这种沉淀,上层的应用不再是一次性的,而是可以复用的,这完全符合实时数仓的理念,在物理层之上封装逻辑视图,让业务面向逻辑视图进行数据分析和应用开发,实现数据驱动业务的基础。当前,证券行业对数据的时效性、多样性和灵活性提出了更高的要求,为了解决实时数仓的挑战,申万宏源于 2023 年引入 StarRocks 对实时数仓整体架构进行了新的设计,目前基于 StarRocks 构建的实时数仓已经在申万宏源的财富管理类、投资研究类和风险管理类等多个场景中得到应用。

2024-01-25 10:15:27 1156

原创 StarRocks 生成列:百倍提速半结构化数据分析

当添加一个生成列时,不会改写存量的物理文件,而是为每一个存量的 segment 生成一个只包含生成列值的 cols 文件(物理格式和 segment 文件一样,但只包含生成列一列数据),当需要查询这些存量数据时,StarRocks 会自动将 segment 和 cols 文件的内容进行合并,获得正确的查询结果。生成列功能是一种加速半结构化分析的有效手段,当面对复杂的半结构化表达式计算时,可以为其添加对应的生成列,在导入阶段自动完成表达式计算,并将结果持久化。

2024-01-18 10:27:19 720

原创 白山云基于StarRocks数据库构建湖仓一体数仓的实践

在全面使用StarRocks替代SparkSQL查询Hudi集群后,资源消耗节省70%,查询效率提升3-8倍

2024-01-17 17:07:45 1173

原创 腾讯实验平台基于 StarRocks 构建湖仓底座

在 2022 年,腾讯 PCG 大数据平台部科学实验团队,基于公司内沉淀的 A/B Test 平台启动了海外商业化版本 ABetterChoice 的建设,作为一个全新的 SaaS 产品,ABetterChoice 将腾讯内部积累的优秀实验能力进行抽象,并基于海外合规、多云环境适配等复杂要求,进行了大刀阔斧的改造,落地一套能满足海外用户诉求的先进实验产品。玩家在不同阶段的特征和诉求,都可以通过实验进行深度挖掘,通过科学的实验流程对游戏产品进行改造与优化,提升游戏的玩家口碑和核心运营指标。

2024-01-12 13:36:42 1169

原创 实战营|阿里云 x StarRocks 邀你现场体验云上极速湖仓--深圳站

此外,还可以在 Flink 作业中使用 Java 代码生成模拟行为数据,通过 Flink Connector 导入 StarRocks,再通过物化视图进行数据 ETL,实现数据指标分层,完成多维分析平台建设。新年伊始,阿里云 EMR OLAP 团队与 StarRocks 社区联合共赴深圳,与镜舟科技、阿里云 EMR、轻喜到家等行业专家共话云上 StarRocks,共同开启新一年的数据分析之旅!关注 StarRocks 公众号,后台回复:“云上极速湖仓”,获取你的专属海报。限量 5 件,先到先得!

2024-01-10 10:18:04 1076

原创 StarRocks Awards 2023 年度贡献人物

自 StarRocks 社区于 2021 年 9 月 8 日成立的那一天起,我们怀揣着“打造世界一流的数据分析产品”的梦想,踏上了星辰大海的征途。颁奖典礼的仪式秉承着社区的传统,已于 11/17 峰会结束后的社区之夜隆重举行。这一年,StarRocks 继续全方位大步向前迈进,在 300+ 贡献者的辛勤建设下,社区先后发布了 50+ 版本,并完成了从全场景 OLAP 到云原生湖仓的进化。在新的一年即将到来之际,StarRocks 社区也祝愿大家在新的一年里能够实现自己的理想,抵达心中的群星。

2024-01-08 11:05:36 622

原创 StarRocks 在小红书自助分析场景的应用与实践

对我们来说用户是我们的分析师,他们的常用习惯是很难改变的,在这种情况下,兼容 Trino查询语义,可以让我们的整个迁移过程变得更平滑,用户体验也会更好。通常可以通过 CN 的容器化来进行弹性伸缩,我们的场景会更特殊一点,因为我们目前的数仓架构体系核心还是构建在 AWS 之上的,而 AWS 提供的 Spot 实例的服务,可以让我们以竞价的方式来获取空闲的机器,这个竞价相比于包年包月的方式能够最高享受到 90% 的折扣,并且可以随起随用,在低峰期可以直接把机器还给 AWS,不收取任何费用。

2024-01-04 19:03:43 1442

原创 存算分离降本增效,StarRocks 助力聚水潭 SaaS 业务服务化升级

测试表明,在开启本地 cache 的情况下,查询性能和存算一体基本持平,响应基本上都是毫秒级别,另外让我们有一点惊喜的是,内存管理变得更高效了,存算分离的内存使用相比存算一体减少了 50%,计算资源性价比更高。我们每天要 load 的数据超过百亿,目前架构下还存在着 load 数据耗时长,多计算引擎数据孤岛、存储浪费等问题,StarRocks 无论是加速 OSS,还是帮助我们去加速阿里云 ODPS 的数据,都可以有效简化我们的数据加工、降低存储成本,这一块非常值得期待。我们把存储从云盘改到了本地盘。

2023-12-29 10:46:23 807

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除