- 博客(205)
- 收藏
- 关注
原创 Paimon x StarRocks 助力喜马拉雅构建实时湖仓
首先,简要介绍一下喜马拉雅的业务。我们的直播业务主要分为音频直播、视频直播以及多人娱乐厅三大类。音频直播:由专业主播为用户提供有声书、知识讲座等内容。视频直播:与市面上多数视频直播类似,包括主播表演和游戏直播等内容。多人娱乐厅:为用户提供一个互动交流的平台,他们可以与主持人共同参与讨论或活动。
2024-10-31 20:27:48 770
原创 啊?原来社区大佬们是这样的人!
你们认识的社区大佬们都是怎样的?在社区里热心回答用户的问题、时常在各平台输出干货或是提 PR 的手速快的惊人?今天程序员节我们不聊代码,我们要来揭秘大佬们鲜为人知的一面,分享他们在生活中的那些隐藏技能:在高强度的工作下如何成为时间管理大师?如何狂减 90 斤,在短短一年间成为健身达人?他们是如何在开源社区里不断成长?与来自世界各地的开发者交流的时候又有哪些文化/语言上的趣事?在 AI 时代下,大佬们是如何保持高效学习的?
2024-10-25 18:17:05 284
原创 洞见数据未来,StarRocks Summit Asia 2024 即将启幕!
数据量和数据类型的需求飞速上涨,我们不仅需要将历史上各种基础设施中的数据进行分析使用,还要关注性能、灵活性、性价比,以及确保单一可信数据源。本届峰会,我们将深入探讨 "Data + AI" 时代下的极速统一架构—— Lakehouse 在各行业的应用与实践、云原生架构优势和更多创新应用场景,探索数据的无限可能。StarRocks 社区现诚挚地邀请在数据库技术、AI 领域内的企业机构、社区和媒体伙伴一起共建共创,推进数据与 AI 生态和行业交流和技术进步。在 AI 时代,我们需要怎样的数据基础软件?
2024-10-24 19:46:54 278
原创 StarRocks Lakehouse 快速入门——Hive Catalog
Apache Hive 是一个分布式、容错的数据仓库系统,能够实现大规模的分析。Hive Metastore (HMS) 提供了一个元数据存储库,可以轻松分析这些元数据以做出基于数据的决策,因此它是许多数据湖架构中的关键组件。Hive 构建于 Apache Hadoop 之上,并通过 HDFS 支持在 S3、ADLS、GS 等存储上的数据管理。Hive 允许用户使用 SQL 读取、写入和管理 PB 级的数据。
2024-10-17 17:45:57 712
原创 七猫如何用StarRocks 打造用户增长新引擎?
七猫的数仓团队主要是承接七猫各条业务线的离线数据开发、实时数据开发、指标建设、数据治理等工作。我加入七猫大约两年时间,加入后第一件事就是引入 StarRocks。现在七猫有五套 StarRocks 集群在生产环境投入了使用。据不完全统计,数据治理前离线数据加实时数据,总数据量大约在 20PB 左右。那我们是如何维护和管理这些数据的呢?下面会通过一张简化版的数据架构图来介绍。这些数据会通过日志埋点的形式上报到日志接收系统。日志接收系统会将用户行为数据和广告数据进行分流,分别存在两个 Kafka 里面。
2024-09-27 16:31:51 1041
原创 饿了么基于Flink+Paimon+StarRocks的实时湖仓探索
作者:王沛斌@饿了么本文整理自饿了么大数据架构师、Apache Flink Contributor 王沛斌老师在8月3日 Streaming Lakehouse Meetup Online(Paimon x StarRocks,共话实时湖仓架构)上的分享。主要分为以下三个内容:1. 饿了么实时数仓演进之路2. 实时湖仓方案选型与探索3. 实时湖仓规划及展望。
2024-09-26 18:00:34 1420
原创 StarRocks 培训课程重磅上线!专家出品,助你升级打怪不走弯路!
今年已过了大半,大家的学习进度条进展如何?如果你对 StarRocks 的基础知识还有疑惑,或在寻找系统性的学习方法,不必灰心,因为 Rocky 要来助你一臂之力啦!
2024-09-10 19:56:51 397
原创 StarRocks Lakehouse 快速入门——Apache Iceberg
Apache Iceberg 是一种为大规模、复杂数据集设计的开源表格式,这些数据集跨越了 PB 级别的数据。最初作为 Netflix 管理海量表的解决方案,于 2018 年在 Apache 孵化器下开源,并在 2020 年毕业。Apache Iceberg 作为一种复杂的开放表格式,位于计算引擎(如 Flink 和 Spark)和存储格式(如 ORC、Parquet 和 Avro)之间。它作为一个中间件层,抽象了底层数据存储格式的复杂性,并向计算框架上层提供了统一的表格语义。
2024-09-06 14:34:24 1450
原创 云原生主键模型:高效、弹性,省钱又省心
无论是大批导入或是小批实时导入,云原生主键索引性能与本地磁盘索引性能基本持平。在弹性调度场景中,得益于云原生的架构,云原生持久化索引的延迟性能提升达到了本地磁盘持久化索引的 10 倍。
2024-09-02 15:07:25 755
原创 StarRocks Lakehouse 快速入门——Apache Paimon
Apache Paimon (后简称 Paimon)起源于 Apache Flink (后简称 Flink)的一个子项目,起初它只是 Flink 内置的 Table Store 的一个格式,经过了几年的发展后,在 2024 年成功从 Apache 软件基金会(ASF)孵化器毕业,成为正式的顶级项目。Paimon 围绕具有 ACID 特性的数据湖存储构建,支持 DML 操作, 可以完整地支持批处理和流处理。它创新性地将 LSM Tree 与湖格式相结合,具有高效的实时更新能力与 compaction 效率。
2024-08-15 20:22:12 1092
原创 Pinterest:从 Druid 到 StarRocks,实现 6 倍成本效益比提升
Pinterest 是一个视觉发现平台,用户可以在上面找到食谱、家居和风格灵感等创意。该平台拥有超过5亿月活跃用户,为广告商提供了重要的广告机会。广告商可以利用数据来分析用户行为,以取得更优的广告表现。Partner Insights 是 Pinterest 提供给广告商的工具,允许他们通过定制的仪表板获取实时洞察。这些洞察帮助广告商了解广告策略的效果,并进行数据驱动的调整,提高广告投资回报率。
2024-08-09 17:03:19 776
原创 StarRocks on AWS Graviton3,实现 50% 以上性价比提升
基于 StarRocks 当前的优化情况和最新的测试数据来看,StarRocks on Graviton3 (C7g) 的总体性能比 Ice Lake 8375C (C6i) 实现了30%以上的综合性能提升。再结合 AWS Graviton3 自身的价格优势(C7g 相对于C6i 有 15% 的成本优化),StarRocks on C7g 相对于 C6i 可以实现 50% 以上的性价比提升。
2024-07-18 15:37:56 1008
原创 成本下降50%,腾讯音乐StarRocks存算分离大规模实践!
StarRocks 存算分离替换上千节点 Clickhouse 和 Druid 集群,效率不变,成本下降50%。
2024-07-12 18:45:36 1151
原创 数仓还是湖仓?专家圆桌深度解析
Apache Iceberg 代表:周劲松——Apache Amoro (incubating) PPMC 成员/腾讯云专家工程师(前网易平台开发专家)Apache Hudi 代表:徐昱——Apache Hudi & StarRocks Contributor/vivo 湖仓组件研发负责人Apache Paimon 代表:王日宇——StarRocks Committer/阿里云高级研发工程师。
2024-07-05 16:42:09 898
原创 StarRocks 3.3 重磅发布,Lakehouse 架构发展进入快车道!
在 Lakehouse 架构中,缓存设计是实现高效数据处理的关键一环。对于存算分离架构来说,缓存的重要性不言而喻。无论是 Hive、Iceberg、Paimon 等外表,还是 StarRocks 存算分离的内表,缓存命中率的高低直接影响性能的优劣。在缓存命中情况下,性能已经能够追平存算一体的架构,但如何合理、稳定地将热数据保存在缓存中却是一大挑战。StarRocks 原生开发的缓存功能为用户提供了开箱即用的便捷体验。无需复杂的配置,用户即可利用强大的缓存机制提升数据处理性能。
2024-07-03 20:04:13 1225
原创 极速查询:StarRocks 存算分离 Compaction 原理 & 调优指南
作者:丁凯,StarRocks TSC member/镜舟科技云原生技术负责人StarRocks 在数据摄入过程中,每次操作都会创建一个新的数据版本。在查询时,为了得到准确的结果,必须将所有版本合并。然而,随着历史数据版本的累积,需要合并的文件数量增多,这将显著降低查询效率。为了解决这个问题,StarRocks 会定期执行内部任务,通过合并历史数据版本来消除重复记录,这个过程被称为 Compaction。
2024-06-18 20:15:42 1445
原创 StarRocks x 腾讯视频:指标中台驱动湖仓一体建设实践
首先来介绍一下腾讯视频相关业务背景和技术背景。最后对指标中台以及湖仓一体进行一下总结和展望。我们未来会建立以指标为中心,定义、生产、消费、质量保障为一体的指标驱动式数据消费的新模式。在指标生产部分,提供标准化配置化的生产。指标消费部分提供一次定义,多处使用。指标质量部分提供全链路全面的可观测和诊断。指标运营部分降低成本,优化指标生产消费的流程,最终形成以指标驱动的数据消费新模式。
2024-06-17 15:08:48 1132
原创 StarRocks vs. Trino: 高并发性能背后的技术优势是什么?
Trino(之前称 PrestoSQL)项目最初由 Meta 开发,旨在让数据分析师能够在广泛的 Apache Hadoop 数据仓库上执行交互式查询。其高效处理大型数据集和复杂查询的能力,以及多数据源连接的灵活性,使其迅速成为大规模组织的首选数据分析工具。随着时间的推移,用户对数据分析的需求不断演变。移动互联网和 SaaS 应用的兴起,实时分析变得至关重要。因此,企业需要更高性能、更高并发、低延迟的数据分析引擎来满足不断增长的数据分析需求。在这种情况下,越来越多的用户开始寻找替代方案。
2024-06-11 16:52:22 1011
原创 Data Lakehouse:你的下一个数据仓库
Lakehouse 兼具数据仓库与数据湖的优势,是下一代数据分析架构的演进趋势;StarRocks 是构建 Lakehouse 的最佳选择,已在微信、小红书、携程、平安银行等数十个大型企业落地实践,帮助企业实现 One data、all analytics 的业务价值。更多交流,联系我们:https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/8da64。
2024-05-29 14:46:06 942
原创 优化数据查询性能:StarRocks 与 Apache Iceberg 的强强联合
Apache Iceberg 是一种开源的表格格式,专为在数据湖中存储大规模分析数据而设计。它与多种大数据生态系统组件高度兼容,相较于传统的 Hive 表格格式,Iceberg 在设计上提供了更高的性能和更好的可扩展性。它支持 ACID 事务、Schema 演化、数据版本化、隐式分区和跨引擎兼容性等功能,使其特别适合处理数据密集型的大数据分析任务。然而,Iceberg 的使用也伴随着一些挑战,如较高的上手难度、后台维护需求、性能优化和治理策略等。
2024-05-23 15:46:09 964
原创 AI 写 SQL 真的靠谱吗?腾讯游戏在 AI+ 湖仓一体的实践
作者:腾讯游戏数据技术负责人 刘岩腾讯游戏是全球领先的游戏开发和运营商,其数据团队拥有十余年、700+ 款大型游戏的数据工作沉淀。复杂的业务环境下,腾讯游戏数据团队每年需要处理超过 3 万个数据提取需求,SQL 编写需要耗费大量时间和精力,如何提升效率成为了一个关键问题。本文介绍了腾讯游戏数据团队如何通过最新的大语言模型技术,基于StarRocks构建一个高效的湖仓一体 +AI 数据管理新范式,解决游戏业务数据提取需求上痛点的实践经验。
2024-05-15 19:14:34 1283 1
原创 StarRocks x Paimon 构建极速实时湖仓分析架构实践
当前 StarRocks x Paimon 的能力主要包括:支持各类存储系统,包括 HDFS 以及对象存储 S3/OSS/OSS-HDFS支持 HMS 以及阿里云 DLF 元数据管理系统支持 Paimon 的 Primary Key 和 Append Only 表类型查询支持 Paimon 系统表的查询,常见例如 Read Optimized 表,snapshots 表等支持 Paimon 表和其他类型数据湖格式的关联查询支持 Paimon 表和 StarRocks 内表的关联查询。
2024-04-26 10:43:33 1757
原创 StarRocks 实战指南:100+ 大型企业背后的最佳实践经验
编者荐语:本文由镜舟科技的 DBA 团队负责人景丹撰写。在过去三年中,他服务了上百家 StarRocks 大型企业用户,并总结了最佳使用方法。文章涵盖了部署、建模、导入、查询和监控五个模块。以下文章来源于小景说 ,作者镜舟科技 DBA。
2024-04-23 17:04:44 1034
原创 升级啦!探索全新 StarRocks 中文社区与高效使用秘籍!
眼尖的朋友可能已经注意到,StarRocks 中文社区最近换上了全新的皮肤。是的,我们 StarRocks 的聚集地升级了!🎉自成立两年半以来,StarRocks 中文社区不断壮大,现已发展成为一个拥有数万名成员的活跃社区。为了帮助大家更便捷地获取最新资讯、降低参与社区的门槛,我们对中文社区进行了一次重要的升级。
2024-04-17 20:06:17 345
原创 StarRocks 物化视图:指标平台性能提升的新引擎
在这样的背景下,StarRocks 以其卓越的性能和灵活的物化视图功能,成为了构建指标平台的理想选择。平台的复杂性增加,涉及更多指标维度和衍生方法,以及更广泛的业务服务,这使得 Kylin 构建 Cube 时的性能问题逐渐显现,特别是在 Cube 构建过程中的性能开销较大。指标平台通过简化这一流程,使得分析工程师 (analytic engineer)能够统一数据工程和数据分析的角色,从业务视角出发定义一致的指标,并通过平台自动生成相应的 SQL 查询和 BI 报表,从而提高效率和准确性。
2024-04-12 17:15:37 1395
原创 基于 StarRocks 的风控实时特征探索和实践
编者荐语:金融风控特征在实时业务中至关重要,是评估和管理风险的核心指标。经过评估,滴滴最终选择了 StarRocks 作为验证选项的落地方案。通过 StarRocks 实现流批一体,成功解决了风控实时特征流批分离的难题,缩短了开发周期,实现了更快的需求交付。
2024-04-12 16:35:50 1158
原创 StarRocks 助力小红书离线数仓提效,提升百倍回刷性能!
OLAP 引擎在实时数仓建设方面已经得到了广泛的应用。我们的实践证明,结合业务特点,在处理中小规模数据量时,使用 StarRocks 等分布式 OLAP 引擎替换 Spark ,承担更多的离线处理任务,可以显著提高数据仓库产出的速度和效率,达到降本增效的目的。展望未来,我们计划进一步探索 StarRocks 在湖仓一体和存算分离的应用场景,以构建更加高效、灵活的数据生产链路和自助分析产品。我们期待通过这些创新实践,能够为公司带来更强大的数据处理能力,支持业务的持续增长和决策的精准性。作者简介。
2024-03-26 19:48:35 1250
原创 StarRocks 助力金融营销数字化进化之路
作者:平安银行 数据资产中心数据及 AI 平台团队负责人 廖晓格平安银行五位一体,做零售金融的领先银行,五位一体是由开放银行、AI 银行、远程银行、线下银行、综合化银行协同构建的数据化、智能化的零售客户经营模式,这套模式以数据为基础,AI 为内核,通过画像识别,基于场景数据分析,通过高效组织内部资源,为客户提供精准服务,实现零售转型业务增长的第二曲线。通过颠覆传统“以产品为中心”模式,真正实现以客户为中心、以 AI 、大数据为驱动,以 KYC/KYP/KYATO 方法论打造技术架构及业务模块。
2024-03-21 20:30:25 1091
原创 腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘
作者:腾讯大数据 高级工程师 陈九天小编导读: 腾讯天穹是协同腾讯内各 BG 大数据能力而生的 Oteam,作为腾讯大数据领域的代名词,旨在拉通大数据各个技术组件,打造一个具有统一技术栈的公司级大数据平台体系。从底层数据接入、数据存储、资源管理、计算引擎、作业调度,到上层数据治理及数据应用等多个环节,支持腾讯内部近 EB 级数据的存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。
2024-03-15 17:23:47 1052
原创 StarRocks 易用性全面提升:数据导入可以如此简单
一般情况下,建议直接使用 **date_trunc() 函数来指定分区方式**(也即[「时间函数表达式分区」](https://docs.starrocks.io/zh/docs/table_design/expression_partitioning/#%E6%97%B6%E9%97%B4%E5%87%BD%E6%95%B0%E8%A1%A8%E8%BE%BE%E5%BC%8F%E5%88%86%E5%8C%BA))。并且,后续还会融入 Routine Load 的功能,将流式数据的导入也统一进来。
2024-03-13 20:21:17 1277
原创 QPS 提升 10 倍!滴滴借助 StarRocks 物化视图实现低成本精确去重
同步和异步物化视图都支持透明的查询改写,依照这样的构建逻辑,用户基于原始明细表查询时,会遵循异步物化视图->同步物化视图->原始明细表的优先级来进行查询加速,从而保证了查询整体的实效性。对于可累加维度,只需创建一个基于该维度的异步物化视图,不需要为每个不同的可累加维度组合创建单独的视图,因为结果是可以复用的。由于看板查询都是基于平台配置的,自动生成的查询 SQL,因此通过分析历史查询记录,提取高频查询,进行物化视图的自动创建,可以减少人工参与,从而更有利于实现技术的更大规模应用和推广。
2024-03-01 13:36:15 1315
原创 vivo 基于 StarRocks 构建实时大数据分析平台,为业务搭建数据桥梁
随着业务规模向全球发展,vivo 的分销代理系统覆盖用户量级飞速增长,营销、计价、订单、库存等业务系统均需要实时数据来保证销售业务精准稳定运营,这使得原有数仓架构的访问量持续增长,同时,随着各种大数据分析相关新业务的上线, Trino 负载越来越高,逐渐无法满足访问量持续增长带来的查询压力。而随着公司数字化服务的演进,业务诉求和技术架构有了新的调整,已有的基于 Trino 的架构面临着数据时效、查询性能、并发能力、复杂运维等方面的瓶颈,为此 vivo 大数据团队进行了一系列技术架构的探索和实践。
2024-02-21 10:22:54 1139
原创 8分钟带你体验 Flink CDC 3.0 实现 MySQL 与 StarRocks 实时数据同步
2023年12月, Flink Forward Asia 发布了新一代的端到端数据集成框架 Flink CDC 3.0,该版本采用了以 Flink 为基础的端到端流式 ELT 数据集成框架,支持将数据先导入到下游系统,然后在下游系统中进行加工。在该版本中,社区已支持实时同步 MySQL 数据至 StarRocks 的链路,用户可以利用 StarRocks 强大的预计算能力和物化视图等功能在 StarRocks 中完成高效的加工,大大简化数据同步链路。提供全量和增量的实时数据同步能力。
2024-02-18 14:41:50 1817
原创 StarRocks 1 月社区动态(2024)
当前,证券行业对数据的时效性、多样性和灵活性提出了更高的要求,为了解决实时数仓的挑战,申万宏源于 2023 年引入 StarRocks 对实时数仓整体架构进行了新的设计,目前基于 StarRocks 构建的实时数仓已经在申万宏源的财富管理类、投资研究类和风险管理类等多个场景中得到应用。新的一年,也请大家查收最新一月的社区动态。凭借所有社区参与者的支持,StarRocks 在2023年不断进化,锤炼核心功能,打磨全新特性,成功实现了从全场景OLAP到云原生湖仓的全面升级,成为湖仓新范式的造浪者;
2024-02-05 19:07:54 1540
原创 京东物流基于 StarRocks 的数据分析平台建设
最下层左侧是生产系统数据区;报表生成之后,有时需要互相传阅,在 Excel 非常多的情况下,大家互相传输,有时会用到一些线下的传输工具,导致数据来源不明晰,由于传输过程中有很多人工参与,协同比较困难,数据的时效性、安全性都得不到保障,并且存在大量重复性工作,性能体验非常差。在我们的业务场景中,当一个订单从商城域进入物流域后,会经过很多环节,从仓储到分拣,再到配送、拓投,链条非常长,中间系统特别多,数据也比较多,各个系统产生的数据被存储到各种各样的异构存储里,一线运营人员在找数据时存在一定困难。
2024-02-02 13:52:10 1495
原创 湖仓新范式的造浪者 | StarRocks 2023 年度总结(文末福利)
最后,欢迎来 StarRocks 论坛写下你对社区 2024 年的期望,我们还有好礼相赠。大胆的留下你的想法,万一实现了呢!StarRocks 峰会纪念T恤 *10 (花样可 4 选择 1,因为要定制,年后才会开始寄送!社区的进步离不开大家的支持,新的一年我们也期望能与更多的小伙伴们大步前行、共同成长。你希望社区提供什么活动?你最希望社区推出什么 feature?你最希望社区跟哪个大数据生态组件结合?StarRocks 鼠标垫 *5。你最希望社区提供怎样的内容?B站季度大会员 *5。
2024-01-26 15:53:19 479
原创 申万宏源基于 StarRocks 构建实时数仓
这样,所有历史数据在进入后都可以在这里沉淀,并且得益于这种沉淀,上层的应用不再是一次性的,而是可以复用的,这完全符合实时数仓的理念,在物理层之上封装逻辑视图,让业务面向逻辑视图进行数据分析和应用开发,实现数据驱动业务的基础。当前,证券行业对数据的时效性、多样性和灵活性提出了更高的要求,为了解决实时数仓的挑战,申万宏源于 2023 年引入 StarRocks 对实时数仓整体架构进行了新的设计,目前基于 StarRocks 构建的实时数仓已经在申万宏源的财富管理类、投资研究类和风险管理类等多个场景中得到应用。
2024-01-25 10:15:27 1174
原创 StarRocks 生成列:百倍提速半结构化数据分析
当添加一个生成列时,不会改写存量的物理文件,而是为每一个存量的 segment 生成一个只包含生成列值的 cols 文件(物理格式和 segment 文件一样,但只包含生成列一列数据),当需要查询这些存量数据时,StarRocks 会自动将 segment 和 cols 文件的内容进行合并,获得正确的查询结果。生成列功能是一种加速半结构化分析的有效手段,当面对复杂的半结构化表达式计算时,可以为其添加对应的生成列,在导入阶段自动完成表达式计算,并将结果持久化。
2024-01-18 10:27:19 770
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人