【Doris】
文章平均质量分 91
九层之台起于累土
九层之台,起于累土;千里之行,始于足下!
展开
-
【Doris】 技术实现 - 冷热数据存储(二)
上一篇文章[ApacheDoris技术实现-冷热数据存储(一)]主要讲述了冷热数据存储与存算分离之间的关系,结合数据仓库的历史,分析了存算分离在实时数仓上面的局限性,相比起分布式计算类项目(spark、flink),实时数仓只能做到有限制的存算分离。并根据这一现状,描述了一个冷热数据与存算分离结合的模型。接下来,我会先后讲述该模型的几个主要模块的原理与实现热数据转冷、冷数据读写。本文介绍了DORIS冷热数据转换的基本功能,热数据转冷与冷数据读写。关于冷热数据的实现,还有很多方面可讲。...转载 2022-07-26 15:35:52 · 614 阅读 · 0 评论 -
【Doris】 技术实现 - 冷热数据存储(一)
对于任何一种数据库类软件来说,无论其基于传统数据库模型还是基于分布式结构,作为核心的永远是数据本身。而数据的生命周期,则体现在CRUD操作(创建、查询、更新、删除)上。任何一条数据从其生成的时刻开始,数据价值随着时间的推移而逐渐降低,直至成为无用数据,最终删除。作为使用数据的主体——用户,对于各种数据的需求程度是不同的,人们往往对重要的数据有更高效、稳定的访问需求;而对于不重要的数据则没有这么高的要求,而前者存储的代价往往是远高于后者的。...转载 2022-07-26 15:34:32 · 1346 阅读 · 0 评论 -
【Doris】Prometheus+Grafana监控Doris
DorisDB提供两种监控报警的方案,第一种是使用内置的DorisManager,其自带的Agent从各个Host采集监控信息上报到Center Service然后做可视化展示,也提供了邮件和Webhook的方式发送报警通知。但是如果用户为了二次开发需求,需要自己搭建部署监控服务,也可以使用开源的Prometheus+Grafana的方案,DorisDB提供了兼容Prometheus的信息采集接口,可以通过直接链接BE/FE的HTTP端口来获取集群的监控信息。如果采购DorisDB企业版,则提供DorisM转载 2022-07-19 10:33:51 · 3224 阅读 · 1 评论 -
【Doris】Doris 最佳实践-Compaction调优(3)
本文是 Compaction 调优系列文章的第三篇。在前两篇文章中我们介绍了Compaction的一些基本概念,以及Compaction选择策略和执行过程。本篇我们将从实际使用场景的角度出发,介绍 Compaction 的调优思路和策略。通过本文读者将了解到 Compaction 相关的日志分析、参数调整和 API 的使用。Doris 最佳实践-Compaction调优(1)Doris 最佳实践-Compaction调优(2)## 什么情况下需要调整 Compaction 参数Compaction 的目的是转载 2022-07-13 09:15:09 · 991 阅读 · 0 评论 -
【Doris】Doris 最佳实践-Compaction调优(2)
本文是 Compaction 调优系列文章的第二篇。在【前一篇文章】中我们介绍了Compaction的一些基本概念。这里我们回顾下两个重要概念:每个 BE 节点上的 Compaction 操作都是独立进行的。Compaction 的对象是单个 BE 节点上的全部数据分片。Compaction 分为 Base Compaction(BC) 和 Cumulative Compaction(CC),由Cumulative Point(CP) 划分,根据一定策略,选择一组rowset进行Compaction。本文将转载 2022-07-13 09:15:21 · 229 阅读 · 0 评论 -
【Doris】美团外卖实时数仓建设实践
**导读:**本文主要介绍一种通用的实时数仓构建的方法与实践。实时数仓以端到端低延迟、SQL标准化、快速响应变化、数据统一为目标。在实践中,我们总结的最佳实践是:一个通用的实时生产平台 + 一个通用交互式实时分析引擎相互配合同时满足实时和准实时业务场景。两者合理分工,互相补充,形成易于开发、易于维护、效率最高的流水线,兼顾开发效率与生产成本,以较好的投入产出比满足业务多样需求。1 实时场景实时数据在美团外卖的场景是非常多的,主要有以下几点:运营层面:比如实时业务变化,实时营销效果,当日营业情况以及当日实时业转载 2022-07-13 09:15:29 · 1235 阅读 · 0 评论 -
【Doris】百度商业大规模高性能全息日志检索技术揭秘
百度商业产品是服务于百度广告主用来投放广告而打造的产品生态。包含搜索推广、信息流推广、品牌等推广渠道以及观星盘、基木鱼等营销工具。百度商业产品全景图这一系列商业产品底层多为复杂的 Java 业务系统。复杂性主要体现在底层微服务子系统多、应用间调用关系复杂、基础组件依赖多。复杂性高就就意味着容易出问题,并且出了问题定位困难。但是这些产品出问题会直接导致广告主是否成功投放广告或者修改出价、创意等操作失败。「如果有过在广告业务系统一线工作经历的同学,应该深知排查线上问题的枯燥和耗时」如何在出问题第一时间定位问题,转载 2022-07-13 09:15:37 · 579 阅读 · 0 评论 -
【Doris】Doris在用户画像人群业务的应用
讲座分为三部分内容:用户画像群体服务的业务场景技术问题、思路与相关业界方案实现情况基于Doris的技术实现1 用户画像群体服务的业务场景百度的用户画像是面向百度全产品线的基础数据和服务平台。我们会为包括百度凤巢、搜索、Feed等百度各条产品线提供服务,每天有着千亿级的离/在线的数据调用规模。随着业务的发展,我们逐步形成了用户理解全流程的数据和服务,覆盖从多元数据的采集、大规模的数据挖掘、高性能的数据服务以及面向业务场景的解决方案。在我们的工作中,用户群体分析和人群圈选是比较常见的需求,包括群体分析、业务报表转载 2022-07-13 09:15:45 · 1096 阅读 · 0 评论 -
【遇见Doris】基于Doris的有道精品课数据中台建设实践
我们本次想要和大家分享一下有道精品课数据中台的架构演进过程,以及Doris作为一个MPP分析型数据库是如何为不断增长的业务体量提供有效支撑并进行数据赋能的。本文以我们在实时数仓选型的经验为切入点,进一步着重分享使用Doris过程中遇到的问题以及我们针对这些问题所做出的调整和优化。1 背景根据业务需求,目前有道精品课的数据层架构上可分为离线和实时两部分。离线系统主要处理埋点相关数据,采用批处理的方式定时计算。而实时流数据主要来源于各个业务系统实时产生的数据流以及数据库的变更日志,需要考虑数据的准确性、实时性和转载 2022-07-13 09:15:54 · 499 阅读 · 0 评论 -
【Doris】Doris on ES在快手商业化的最佳实践
快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务,以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1 业务场景介绍1.1 服务介绍本文主要侧重介绍Doris on ES(DOE)在我们业务场景的实践,所以我们的数据架构在这里只做简单介绍,如上如图所示。总体来说数据分为实时+离线两块事实数据写入,外加mysql binlong同步这一部分的维度数据写入。实时主要是flink+kafka,离线部分基本各大公司都是统一解决方转载 2022-07-13 09:16:12 · 922 阅读 · 0 评论 -
【Doris】Doris 最佳实践-Compaction调优(1)
这是Compaction调优系列文章的第一篇,我们将尝试通过3篇文章帮助Doris用户了解什么是Compaction、Compaction是如何运作,以及如果调整Compaction策略。## 什么是 CompactionDoris 的数据写入模型使用了 LSM-Tree 类似的数据结构。数据都是以追加(Append)的方式写入磁盘的。这种数据结构可以将随机写变为顺序写。这是一种面向写优化的数据结构,他能增强系统的写入吞吐,但是在读逻辑中,需要通过 Merge-on-Read 的方式,在读取时合并多次写入的转载 2022-07-13 09:16:38 · 1317 阅读 · 0 评论 -
【Doris】京东物流基于 Doris 的亿级数据自助探索应用
**导读:**京东智慧物流在数据应用方面,主要是基于大数据预测分析技术实现智能化的调度、决策,提升物流效率,最终提升客户的体验。但面对亿级数据的业务场景,将会面临着不同的问题和不同的处理方案。今天讨论了京东物流在亿级数据管理和应用方面,利用Apache Doris进行的探索和实践。01业务场景介绍首先和大家分享下京东物流业务的需求和亿级数据自助应用的背景。介绍京东物流经营数据发展路线,底层数据的演进思路,业务对于数据诉求迭代。1. 业务需要什么京东物流除了包括快递服务的仓、运、配三个环节外,它的一体化供应链转载 2022-07-13 09:16:45 · 535 阅读 · 0 评论 -
【Doris】Apache Doris 在蜀海供应链的实践
本次分享大纲如下:蜀海供应链业务介绍蜀海数据仓库架构演进路线以Apache Doris为核心的企业级数据仓库架构基于Apache Doris构建数据中台的实现方案概述最早接触Doris是在2020年初,当时是为了解决在海量数据上实时高并发查询的问题,当时调研了很多框架,在使用这Doris之前我的架构和其他公司的架构基本差不多,Hadoop,Hive,Spark,Presto, 但是这些都满足不了我的需求,在调研Clickhouse的时候,发现了Doris,看网上介绍从性能、并发性及易用性上都非常好。在深度做转载 2022-07-13 09:16:51 · 589 阅读 · 0 评论 -
【Doris】 Apache Doris 在韵达物流领域的应用实践
Apache Doris 社区受邀参与本次 Meetup ,来自韵达科技的 高级研发工程师张浩 以及 数据模型工程师郭文杰 为大家带来了题为“ Apache Doris 在韵达物流领域的应用实践 ”的主题分享,主要介绍了韵达科技的业务背景、平台需求与选型、基于 Apache Doris 的实时数仓设计、以及 Doris 在韵达业务场景中的实际应用,以下是分享内容。张浩:非常荣幸今天能在 Meetup 给大家分享一下, Apache Doris 在韵达的实际应用。这是今天演讲的几个方面,然后我给大家带来前两个转载 2022-07-12 11:42:02 · 946 阅读 · 0 评论 -
【Doris】Apache Doris 在京东客服 OLAP 中的应用实践
引言Apache Doris 是一款开源的 MPP 分析型数据库产品,不仅能够在亚秒级响应时间即可获得查询结果,有效的支持实时数据分析,而且支持 10PB 以上的超大的数据集。相较于其他业界比较火的 OLAP 数据库系统,Doris 的分布式架构非常简洁,支持弹性伸缩,易于运维,节省大量人力和时间成本。目前国内社区火热,也有美团、小米等大厂在使用。本文主要讨论京东客服在人工咨询、客户事件单、售后服务单等专题的实时大屏,在实时和离线数据多维分析方面,如何利用 Doris 进行业务探索与实践。近些年来,随着数据转载 2022-07-12 11:38:25 · 382 阅读 · 0 评论 -
【Doris】Flink CDC 结合 Doris Flink Connector 实现MySQL数据实时入Apache Doris
CDC 是变更数据捕获(Change Data Capture)技术的缩写,它可以将源数据库(Source)的增量变动记录,同步到一个或多个数据目的(Sink)。在同步过程中,还可以对数据进行一定的处理,例如分组(GROUP BY)、多表的关联(JOIN)等。例如对于电商平台,用户的订单会实时写入到某个源数据库;A 部门需要将每分钟的实时数据简单聚合处理后保存到 Redis 中以供查询,B 部门需要将当天的数据暂存到 Elasticsearch 一份来做报表展示,C 部门也需要一份数据到 ClickHous转载 2022-07-12 11:35:04 · 1954 阅读 · 0 评论 -
【Doris】新东方在线教育实时数仓的落地实践
背景介绍在传统数据仓库方面,通常以 T+1 离线批量计算为主,按照数仓建模方式,把要处理的业务按照主题域划分,构建各种数据模型,来满足公司经营分析,财务分析等各种公司管理层的数据需求。然而,随着在线教育快速发展市场竞争非常激烈,T+1 的方式在某些需求上很难对业务产生实际的价值,很可能因为数据延迟导致业务动作滞后,管理要求跟进不及时,最终导致客户流失,影响公司业务发展。目前我们遇到的主要痛点如下:**续费业务场景:**在线教育上课主要分为 4 个时段(春季,暑假,秋季,寒假)。当每一个时段上课要结束的时候,转载 2022-07-12 11:33:28 · 716 阅读 · 0 评论 -
【Doris】Apache Doris物化视图与索引在京东的典型应用
**导读:**本文分享关于 Doris 的实际使用情况,主要是物化视图、索引的典型应用案例,以及在使用 Doris 过程中的一些心得。01物化视图本节主要介绍物化视图相关的概念和实际使用案例。1. 物化视图基本概念先介绍物化视图的基本概念,物化视图是指在 Doris 中将一些预计算好的数据存储在 Doris 中的一个特殊表(Doris 0.12版本之前是有 rollup 的概念,0.12 版本之后已经统一使用物化视图),这里涉及到两个知识点:预计算:这里会用一些聚合函数相关的功能把数据先计算好特殊表:所谓的转载 2022-07-12 11:31:41 · 525 阅读 · 0 评论 -
【Doris】Apache Doris Join 实现与调优实践
非常高兴可以参与本次的开源大数据技术 Meetup ,今天跟大家分享的主题是 Apache Doris 的 Join 实现和调优,内容主要分为三块:第一部分会先给不太了解 Apache Doris 的小伙伴们简单介绍一下 Doris,第二部分会介绍 Doris 的整个 Join 实现的机制,第三部分是我们基于 Doris 这些 Join 实现机制将怎样展开 Join 的调优工作。分享目录**Doris 简介**首先简单介绍一下 Doris 。Doris 是百度自主研发并开源的一个基于 MPP (大规模并行转载 2022-07-12 11:29:21 · 1270 阅读 · 0 评论 -
【Doris】 Apache Doris 在小米集团的运维实践
背景为了提高小米增长分析平台的查询性能以及降低平台的运维成本,2019 年 9 月小米集团首次引入了 Apache Doris 。在过去两年多的时间里,Apache Doris 在小米集团得到了广泛的应用,目前已经服务了增长分析、集团数据看板、天星金融、小米有品、用户画像、广告投放、A/B 实验平台、新零售等数十个业务,如图 1 所示。在小米集团,质量就是生命线,随着业务持续增长,如何保障线上 Doris 集群的服务质量,对集群的运维人员来说是个不小的挑战。本文将从运维的角度对 Apache Doris 在转载 2022-07-12 11:26:10 · 334 阅读 · 0 评论 -
【Doris】知乎用户画像与实时数据的架构与实践
用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以 Apache Doris 为基础,基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构,同时支持实时业务分析、实时算法特征、用户画像三项核心业务流,显著提升对于时效性热点与潜力的感知力度与响应速度,大幅缩减运营、营销等业务场景中的人群定向成本,并对实时算法的准确率及业务核心指标带来明显增益。**关键词:**数据仓库,Apache Doris,用户画像,实时数据一、前言知乎业务中,随着各业务线业务的发展,逐渐对用户画像和实时数据这两部转载 2022-07-12 11:23:48 · 1192 阅读 · 2 评论 -
【Doris】Apache Doris在网易互娱的应用实践
FE 的主要作用将 SQL 语句转换成 BE 能够认识的 Fragment,如果把 BE 集群当成一个分布式的线程池的话,那么 Fragment 就是线程池中的 Task。从 SQL 文本到分布式物理执行计划,FE 的主要工作需要经过以下几个步骤:tablet 数:2000w -> 100wtablet 增长量:15000/TB(1)对于现存的表扫描集群内所有的表,以分区粒度输出一份完整的数据统计给业务方,并根据每张表的实际情况附上修改建议;制定治理计划按照由高收益到低收益,优先处理最不合理的库,将元数据管原创 2022-07-12 11:20:37 · 123 阅读 · 0 评论 -
【Doris】基于Apache Doris的小米增长分析平台实践
1 背景随着小米互联网业务的发展,各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然,让每个业务产品线都自己搭建一套增长分析系统,不仅成本高昂,也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节,让相关业务人员能够专注于自己的技术领域,从而提高工作效率。通过分析调查发现,小米已有的统计平台无法支持灵活的维度交叉查询,数据查询分析效率较低,复杂查询需要依赖于研发人员,同时缺乏根据用户行为高效的分群工具,对于用户的运营策略囿于设施薄弱而较为粗放,运营效率较低和效果不佳。基于转载 2022-07-11 09:47:58 · 1221 阅读 · 0 评论 -
【Doris】Doris核心功能介绍——数据模型和物化视图
本次为大家带来的是第一期内容回顾:《Doris核心功能介绍——数据模型和物化视图》本期主讲人:缪翎百度研发工程师Doris PPMC讲座主要分为四部分内容:Doris是什么Doris的两种数据模型Doris的物化视图适用场景总结Doris是什么首先 Doris 是一个有着MPP架构的分析型数据库产品。对于PB数量级、结构化数据可以做到亚秒级查询响应。使用上兼容MySQL协议,语法是标准的SQL。Doris本身不依赖任何其他系统,相比Hadoop生态产品更易于运维。应用场景包括:固定历史报表分析、实时数据分析转载 2022-07-11 09:48:35 · 2940 阅读 · 0 评论 -
【Doris】Apache Doris在京东双十一大促中的实践
航源主要负责京东的广告平台报表业务,京东的广告平台每天支撑了千万级以上的查询量,同时每天有百亿级的增量需要维护。所有的报表级查询需要毫秒级返回数据,场景主要包括报表查询、多维分析、日志分析等。以账户报表为例,京东的报表平台有如下特点:存储介质多、逻辑计算复杂且延迟敏感:一张报表中通常会有非常多的指标列,涉及多个存储介质(MySQL、Doris、Redis等),这些列都需要实时关联,且需要保证报表是毫秒级数据返回。聚合数据为主:与Doris的聚合模型场景贴合。对外业务,服务质量要求高:面对的客户是所有京东的广转载 2022-07-11 09:48:44 · 331 阅读 · 0 评论 -
【Doris】Apache Doris 在百度商业大规模微服务全链路监控的实践
来自百度凤巢的李奇原负责的工作分为两个阶段。第一阶段负责凤巢广告 API 平台,承载了百度所有的信息流广告和搜索广告投放业务,第二个阶段是负责整个商业平台部所有微服务的监控系统。百度技术栈有 C++、JAVA、PHP。商业平台大部分是广告业务系统,技术栈主要是 JAVA语言,因此监控平台也是基于JAVA语言来开发的。因为监控规模非常大,分析需求又复杂,经过一些历史经验后,最后选型了 Doris来做底层的存储系统,现在看来Doris确实能够满足我们大部分的需求。Doris的语法和MySQL基本一致,所以学习成转载 2022-07-11 09:48:51 · 664 阅读 · 0 评论 -
【Doris】Spark Doris Sink的设计和实现
业务场景**Spark Streaming(主要是Structured Streaming)**在百度内部被广泛应用于实时计算,日志分析,ETL等业务场景。其中有很多业务方希望可以使用structured streaming读取上游数据源(例如:kafka、 hdfs、 database等),然后对数据进行处理后实时导入Doris以供查询分析。为此流式计算团队专门开发了Doris sink的组件来适配Doris。Doris sink支持exactly-once语义,封装并对用户屏蔽了与Doris的交互细节,转载 2022-07-11 09:48:57 · 578 阅读 · 0 评论 -
【Doris】存储层设计介绍3——读取流程、Compaction流程分析
1 整体介绍Doris是基于MPP架构的交互式SQL数据仓库,主要用于解决近实时的报表和多维分析。Doris高效的导入、查询离不开其存储结构精巧的设计。本文主要通过阅读Doris BE模块代码,详细分析了Doris BE模块存储层的实现原理,阐述和解密Doris高效的写入、查询能力背后的核心技术。其中包括Doris列存的设计、索引设计、数据读写流程、Compaction流程等功能。这里会通过三篇文章来逐步进行介绍,分别为《Doris存储层设计介绍1——存储结构设计解析》、《Doris存储层设计介绍2——写入转载 2022-07-11 09:49:04 · 1096 阅读 · 0 评论 -
【Doris】存储层设计介绍2——写入流程、删除流程分析
1 整体介绍Doris是基于MPP架构的交互式SQL数据仓库,主要用于解决了近实时的报表和多维分析。Doris高效的导入、查询离不开其存储结构精巧的设计。本文主要通过阅读Doris BE模块代码,详细分析了Doris BE模块存储层的实现原理,阐述和解密Doris高效的写入、查询能力背后的核心技术。其中包括Doris列存的设计、索引设计、数据读写流程、Compaction流程等功能。这里会通过三篇文章来逐步进行介绍,分别为《Doris存储层设计介绍1——存储结构设计解析》、《Doris存储层设计介绍2——写转载 2022-07-11 09:49:12 · 1836 阅读 · 0 评论 -
【Doris】Doris存储层设计介绍1——存储结构设计解析
1 整体介绍Doris是基于MPP架构的交互式SQL数据仓库,主要用于解决近实时的报表和多维分析。Doris高效的导入、查询离不开其存储结构精巧的设计。本文主要通过阅读Doris BE模块代码,详细分析了Doris BE模块存储层的实现原理,阐述和解密Doris高效的写入、查询能力背后的核心技术。其中包括Doris列存的设计、索引设计、数据读写流程、Compaction流程、Tablet和Rowset的版本管理、数据备份等功能。这里会通过三篇文章来逐步进行介绍,分别为《Doris存储层设计介绍1——存储结构转载 2022-07-11 09:49:32 · 3585 阅读 · 0 评论 -
Doris】Doris SQL 原理解析
本文主要介绍了Doris SQL解析的原理。重点讲述了生成单机逻辑计划,生成分布式逻辑计划,生成分布式物理计划的过程。对应于代码实现是Analyze,SinglePlan,DistributedPlan,Schedule四个部分。Analyze负责对AST进行前期的一些处理,SinglePlan根据AST进行优化生成单机查询计划,DistributedPlan将单机的查询计划拆成分布式的查询计划,Schedule阶段负责决定查询计划下发到哪些机器上执行。由于SQL类型有很多,本文侧重介绍查询SQL的解析,从转载 2022-07-11 09:49:42 · 835 阅读 · 0 评论 -
【Doris】Doris Compaction机制解析
导读本文详细地介绍了Doris的compaction机制。首先,从producer-consumer模式以及compaction任务提交的permission机制对compaction的总体设计和架构原理进行了剖析;然后,针对cumulative compaction的size_based策略进行了详细地介绍;最后,对base compaction的流程进行了深入地讲解。Doris通过compaction机制将不同的数据版本进行聚合,将小文件合并成大文件,进而有效地提升了查询性能。1 引言Doris的存储引转载 2022-07-11 09:49:51 · 939 阅读 · 0 评论 -
【Doris】Doris Stream Load原理解析
1 引言Doris的导入(Load)功能就是将用户的原始数据导入到 Doris表中。**Doris底层实现了统一的流式导入框架,而在这个框架之上,Doris提供了非常丰富的导入方式以适应不同的数据源和数据导入需求。**Stream Load是Doris用户最常用的数据导入方式之一,它是一种同步的导入方式, 允许用户通过Http访问的方式将CSV格式或JSON格式的数据批量地导入Doris,并返回数据导入的结果。用户可以直接通过Http请求的返回体判断数据导入是否成功,也可以通过在客户端执行查询SQL来查询历转载 2022-07-12 11:20:05 · 1284 阅读 · 0 评论 -
【Doris】Apache Doris 索引机制解析
1 引言Apache Doris 存储引擎采用类似 LSM 树的结构提供快速的数据写入支持。进行数据导入时,数据会先写入 Tablet 对应的 MemTable 中,当 MemTable 写满之后,会将 MemTable 里的数据刷写(Flush)到磁盘,生成一个个不超过 256MB 的不可变的 Segment 文件。MemTable 采用 SkipList 的数据结构,将数据暂时保存在内存中,SkipList 会按照 Key 对数据行进行排序,因此,刷写到磁盘上的 Segment 文件也是按 Key 排转载 2022-07-09 15:44:48 · 2791 阅读 · 0 评论