自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(154)
  • 收藏
  • 关注

原创 Apache Doris 2.1.3 版本正式发布!

确保用户定义的变量能够正确地传递到 Master 节点,以便在整个系统中保持一致性和正确的执行逻辑。

2024-05-22 14:17:52 382

转载 数据仓库、数据湖与湖仓一体的区别

数据仓库、数据湖和湖仓一体是大数据领域中的三个重要概念,它们在数据处理和分析中各自扮演着不同的角色。

2024-05-17 20:05:03 7

转载 实时的分析型数据库(Apache Doris)你了解多少?

Doris(原百度Palo)是一款基于大规模并行处理技术的分布式 SQL 数据库,由百度在2017年开源,2018年8月进入Apache孵化器。Apache Doris被数百家企业应用在生产系统,包含美团、京东、小米、字节、华为、腾讯等公司。

2024-05-17 20:03:30 15

原创 从 Volcano 火山模型到 Pipeline 执行模型,Apache Doris 执行模型的迭代

在完成 Pipeline 执行模型的改造后,Apache Doris 在高负载情况下集群假死以及资源抢占的问题得以彻底解决、CPU 利用率得到大幅提升,而 PipelineX 执行引擎的迭代又进一步优化了执行引擎的并发执行模式与调度模式,使得 Apache Doris 执行引擎取得了显著的收益和进步,能够在真实生产环境中帮助用户进一步提升执行效率。目前,我们正在将广泛应用于大数据场景的数据落盘技术与 PipelineX 引擎相结合,旨在进一步提升查询的性能及可靠性。

2024-05-17 16:59:06 643

原创 Apache Doris 2.0.10 版本正式发布

亲爱的社区小伙伴们,版本已于 2024 年 5 月 15 日正式与大家见面,该版本提交了 83 个改进项以及问题修复,进一步提升了系统的性能及稳定性,欢迎大家下载体验。

2024-05-17 16:47:35 401

转载 数仓建模详解,数仓建模超全知识点

数仓建模是一个涉及多个学科和领域的复杂过程,它旨在构建一个高效、可靠且易于管理的数据仓库,以支持企业的数据分析和决策制定。下面我将根据上面的大点,详细阐述数仓建模的所有知识点。

2024-05-09 19:47:28 14

转载 浅谈实时数仓流批一体架构的演进之路

流批一体是一种数据处理模式,它结合了流处理和批处理的特点,实现了对实时数据和离线数据的统一处理。在这种模式下,数据可以同时从实时数据源和离线数据源获取,然后进行统一处理和分析。

2024-05-09 19:45:56 13

原创 从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践

作者:武基鹏,无锡锡商银行 大数据技术经理技术团队导读:为实现数据资产的价值转化以及全面数字化、智能化的风险管理,无锡锡商银行大数据平台经历从 Hive 离线数据仓库到实时数据仓库的演进,目前已接入数百张实时表、上百数据服务接口 ,接口 QPS 达到数百万级别,解决了离线数据仓库时效性不足、成本高昂、效率低下等问题,查询提速超 10 倍,为用户提供及时、有效、安全的数据服务及使用体验。面对大数据、物联网、人工智能等新兴技术给金融行业带来的变革,无锡锡商银行将科技能力和大数据能力的发展放在重要位置。

2024-05-08 14:43:02 886

原创 查询提速 11 倍、资源节省 70%,Apache Doris 在网易日志和时序场景的实践

作者|隐形(邢颖), 网易资深数据库内核工程师编辑整理|SelectDB 技术团队导读:作为网易重要的业务线,灵犀办公和云信针对大规模日志/时序数据处理和分析的挑战,分别构建了灵犀 Eagle 监控平台和云信数据平台。本文将重点介绍。

2024-05-06 11:44:14 862 1

转载 实时数仓架构解析,深入了解数仓

这个架构中,中间数据仓库环节有两个部分,一个是离线的数据仓库,一个是实时的数据仓库。因此就产生了 Kappa 结构。接着需要新起一个任务,从原来比较早的一个时间节点去消费 Kafka 上的数据,然后当这个新的任务运行的进度已经能够和现在的正在跑的任务齐平的时候,你就可以把现在任务的下游切换到新的任务上面,旧的任务就可以停掉,并且原来产出的结果表也可以被删掉。在实时数仓计算的部分,不需要做的特别重,尤其是聚合相关的一些逻辑,然后这样就可以保障在数据应用层能灵活的面对各种业务分析的需求变更,整个架构更加灵活。

2024-04-26 15:55:57 26

转载 分析型数据库系统的主要应用

作为中国卓越的由人工智能驱动的信贷科技服务平台,某科技公司选择将 Apache Doris 作为整体 OLAP 场景统一的分析引擎,并使用 Apache Doris 替换了 ClickHouse 和 MySQL ,使得报表分析场景 SLA 达标率提升至 99% 以上,平均查询耗时降低 50%。在更具体的领域,分析型数据库的应用包括但不限于金融分析、CRM(客户关系管理)、市场分析、科学实验室、医疗和物流等。例如,金融分析可以使用分析型数据库进行复杂的数据查询和分析,以支持投资决策和风险管理。

2024-04-26 15:54:28 15

原创 Apache Doris 基于 Workload Group 的负载隔离能力解读|Deep Dive

技术团队现如今企业的数据查询需求在不断增多,在共享同一集群时,往往需要同时面对多个业务线或多种分析负载的并发查询。在有限的资源条件下,查询任务间的资源抢占将导致性能下降甚至集群不稳定,因此负载管理的重要性不言而喻。在早期版本中,Apache Doris 推出了基于资源标签(Resource Tag)的隔离方案,包括集群内节点级别的资源组划分以及针对单个查询的资源限制,实现了不同用户间的资源物理隔离。而为给用户提供更完善的负载管理方案,

2024-04-25 11:27:38 1330

原创 从 Apache Doris 到 SelectDB Cloud:云原生架构下的弹性能力揭秘

云原生实时数仓 SelectDB Cloud 面向云上基础设施进行深度适配,凭借出色的弹性能力,为企业提供了高效、灵活、经济的实时数据分析解决方案。无论是资源弹性伸缩、高效的缓存配置,还是按需存储、混合计费策略,都致力于帮助企业实现实时数据分析的最佳实践和成本优化。后续 SelectDB Cloud 将实现更加 Serverless 化的能力,达到秒级弹性伸缩,为客户带来更加极致性价比的操作体验,进一步提升平台的灵活性和效率,满足企业不断变化的业务需求。

2024-04-23 17:52:22 1291

原创 手把手教你实现 OceanBase 数据到 Apache Doris 的便捷迁移|实用指南

本文介绍了多种 OceanBase 数据同步 Doris 的方式,可满足不同场景的同步需求。如需进行离线数据的同步,可以选择 DataX/Catalog/Outfile 方式;如需进行实时数据的同步,可直接选择 Flink CDC 方式。此外,无论是全量数据还是增量数据同步,均可通过 Flink CDC 这一方式完成。

2024-04-22 11:11:12 1021 1

转载 如何巧用 Flink+Clickhouse 构建高性能实时数仓?

Flink 和 ClickHouse 都是用于构建实时数据仓库的优秀工具。Flink 是一个用于流处理的开源框架,而 ClickHouse 则是一个用于实时数据仓库的高性能列存储数据库。Flink 是 ClickHouse 的最佳搭档,为什么这么说呢?

2024-04-19 15:26:39 94

转载 实时数仓架构和离线数仓架构区别在哪

随着数字化时代的来临,数据已经成为驱动业务决策的重要因素。在数据应用领域,实时数仓架构和离线数仓架构是两种常见的解决方案。它们在数据处理、存储、查询以及适用场景等方面存在显著差异。本文将深入探讨实时数仓架构和离线数仓架构的差异,帮助您更好地理解这两种架构的不同之处。

2024-04-19 15:24:40 45

原创 Doris Manager 24.0 版本正式发布!

(简称 Doris Manager)是 SelectDB 推出的管理运维 Apache Doris 集群的工具。用户可以轻松通过该工具部署和接管集群,实时查看集群的运行状态和详情,快捷地对集群进行扩缩容、升级及重启操作。同时,该工具还支持监控告警、参数配置、日志查看、任务审计、集群巡检等功能,让集群管理变得更加简单高效。

2024-04-17 14:45:44 944

原创 Apache Doris 2.1.2 版本正式发布!

修复 Iceberg Catalog 中,不支持 Iceberg 自定义属性的问题,例如 "io.manifest.cache-enabled"。针对 DB2 Catalog ,增加测试链接是否通畅的功能,能够在建立 Catalog 时做部分链接检查。属性的默认值调整为 Partition,这可以使得并发导入的同时做 EXPORT 操作更容易成功。增加 DNS Cache,解决 K8s 环境下域名解析较慢,从而影响查询的问题。修复部分导入过程中可能出现的 Timeout 的问题。亲爱的社区小伙伴们,

2024-04-17 11:45:43 728

转载 数仓建模的方式有哪些,比较好用的数仓有哪些?

数仓建模是数据仓库建设过程中的核心技术之一。数仓建模方式是指根据业务需求,将数据仓库中的数据按照一定的规则、标准进行分类、整理和归类,然后建立数据仓库的存储结构,使得数据仓库能够满足不同层次用户的查询和分析需求,以及数据仓库性能和可维护性的要求。常用的数仓建模方法有维度建模方法和实体关系建模方式。下面将对这两种建模方式进行详细介绍。

2024-04-11 20:42:19 41

转载 数仓分层详解,数仓分层原理介绍

数据仓库是一个集中式存储和管理结构化数据的平台,而数仓分层则是根据数据的来源、功能和应用,将其分为不同的逻辑层级。这些层级通常包括:数据接入层、数据仓库层、数据集市层和数据应用层。每一层都有其特定的功能和作用。

2024-04-11 20:41:20 70

原创 Apache Doris 基于 Job Scheduler 实现秒级触发任务调度能力

作者|技术团队在数据管理愈加精细化的需求背景下,定时调度在其中扮演着重要的角色。在 Apache Doris 之前版本中,通常需要依赖于外部调度系统,如通过业务代码定时调度或者引入第三方调度工具、分布式调度平台来满足上述需求。然而,因受限于外部系统自身能力,可能无法满足 Doris 对调度策略及资源管理灵活性的要求。此外,如果外部调度系统出现故障,这不仅会增加业务风险,还需投入额外的运维时间和人力来应对。

2024-04-09 12:26:42 1481 1

原创 Apache Doris 2.1.1 版本正式发布!

亲爱的社区小伙伴们,Apache Doris 2.1.1 版本已于 2024 年 4 月 3 日正式发布。该版本针对 2.1.0 版本出现的问题进行较为全面的优化,提交了若干改进项以及问题修复,进一步提升了系统的性能及稳定性,欢迎大家下载体验。

2024-04-03 18:19:50 1331

转载 分析型数据库和关系型数据库区别

数据库目前是分为两大类,分别是关系型数据库和非关系型数据库,而分析型数据库是根据数据库的作用来划分的。

2024-03-29 20:47:14 47

转载 分析型数据库有哪些,分为哪几种类型?

分析数据库是面向分析应用的数据库,与传统的数据库不同,它可以对数据进行在线统计、数据在线分析、即时查询等,从而发掘数据的价值信息,是数据库产品一个重要的分支。

2024-03-29 20:45:42 70

原创 钱大妈生鲜如何利用 CCR 实现 Apache Doris 集群读写分离

钱大妈是社区生鲜连锁品牌的开拓者,经过十一年的稳健运营,已成为行业内的领军品牌,截至 2023 年 7 月已全国布局超 30 多座城市,门店总数 3000 余家,服务家庭超 1000 万。近年来,随着业务的高速发展以及门店的快速扩张,钱大妈需要对生鲜产品的采购、销售、库存等数据进行实时监控和分析,以保障食品的新鲜度及品质。同时需要管理众多门店与供应链信息,以了解各区域销售趋势和顾客偏好,从而优化商品结构和库存管理。在此背景下,钱大妈基于搭建了实时数仓,为业务用户提供实时精准的数据查询及分析服务。

2024-03-29 10:39:57 887

原创 Apache Doris 支持 Arrow Flight SQL 协议,数据传输效率实现百倍飞跃

Apache Doris 支持 Arrow Flight SQL 后,我们得以利用 Python 的 ADBC Driver 轻松连接 Doris,实现数据的极速读取。接下来,我们将使用 Python(版本要求 >= 3.9)的 ADBC Driver 执行一系列常见的数据库语法操作,包括 DDL、DML、设置 Session 变量以及 Show 语句等。

2024-03-26 18:41:51 1037

原创 系列直播预告:Apache Doris 2.1 新版本特性解读来袭,惊喜周边等你拿!

在盲测性能提升 100% 的同时,更在数据湖分析、半结构化数据分析、数据写入与更新、数据存储与负载隔离等方面推出众多核心特性,实时性和易用性的到全面提升。)发帖分享 2.1 版本的使用感受,包括但不限于:数据查询、数据导入/导出、SQL方言兼容、数据湖分析等核心特性相关内容。为了让更多关注和喜爱 Apache Doris 的伙伴更深入了解 Doris 最新功能特性、直观感受性能表现,,为大家带来 Demo 演示与 2.1 版本核心技术解读,欢迎大家预约观看直播。

2024-03-22 15:48:54 262

原创 兼容 Presto、Trino、ClickHouse、Hive 近 10 种 SQL 方言,Doris SQL Convertor 解读及实操演示

1. 下载最新版本的SQL 方言转换工具。2.在任意 FE 节点,通过以下命令启动服务。该服务是一个无状态的服务,可随时启停;该命令中的port=5001是服务端口,可以指定为任意一个可用端口。建议在每个 FE 节点都单独启动一个服务。3.启动 Doris 集群,版本需为 Doris 2.1 或更高4.在 Doris 中设置 SQL 方言转换服务的 URL。该命令中是 SQL 方言转换服务的部署节点 IP 和端口。

2024-03-22 11:53:53 1250

原创 阿里云 SelectDB 联合 DTS ,一键实现 TP 数据实时入仓

大数据时代背景下,高效的数据流转与实时分析能力对于企业的竞争力至关重要。,进一步强化了与阿里云数据传输服务(DTS)的深度融合,在提供亚秒级响应和海量数据查询能力的同时,实现一键从多种源数据库迁移或同步至阿里云 SelectDB 全托管服务,让企业在数据同步迁移过程中享受到更便捷和更稳定的体验。

2024-03-19 17:29:34 584

原创 Apache Doris 如何基于自增列满足高效字典编码等典型场景需求

Apache Doris 在 2.1 版本中实现了高效的自增列功能,提供了创新性的自增序列预分配方案。

2024-03-18 14:35:35 1464

原创 Apache Doris 2.0.6 版本正式发布

亲爱的社区小伙伴们,版本已于 2024 年 3 月 12 日正式与大家见面,该版本在物化视图、统计信息收集、JDBC Catalog 等方面进行了更新优化,并提交了 114 个改进项以及问题修复,欢迎大家下载体验。

2024-03-18 12:08:58 816

原创 分析型数据库的主要使用场景有哪些?

在银行、证券、保险等业务中,企业需要处理大量的交易数据、客户数据和市场数据。通过SelectDB的实时数据处理能力,保险公司能够实时监控业务运行状况,及时发现潜在的风险和机会,为决策提供快速、准确的数据支持。SelectDB在很多行业都能够被应用,比如制造业、互联网行业等,只要涉及到数据和分析的场景,分析型数据库(SelectDB)无疑都是最好的选择,它可以给企业降本增效。收集用户相关的属性与行为数据,构建用户数据平台,进行用户参与、留存和转化等行为分析,以及人群洞察和人群圈选等画像分析。

2024-03-15 18:05:26 1042

原创 一文让您读懂实时数仓(Apache Doris)

随着大数据时代的来临,实时数据处理与分析成为企业核心竞争力的关键因素之一。在这场数据革命中,SelectDB成为引领者。从百度自研的实时数仓平台 Palo,到开源项目 Apache Doris,再到飞轮科技研发的 SelectDB,这些名字都代表着大数据处理领域的前沿技术和最佳实践,接下来带您深入了解实时数仓及其发展现状。

2024-03-15 18:04:06 912

原创 Apache Doris 2.1 核心特性 Variant 数据类型技术深度解析

Variant 的引入,使得存储和查询性能上均有显著提升,相较于 JSON 类型,存储空间减少了约 65%,查询速度提升超 8 倍。

2024-03-14 11:36:57 722

原创 Apache Doris 2.1.0 版本发布:开箱盲测性能大幅优化,复杂查询性能提升 100%

亲爱的社区小伙伴们,我们很高兴地向大家宣布,在 3 月 8 日我们引来了的正式发布,欢迎大家下载使用。在 2.1.0 版本的研发过程中,后续我们将会持续敏捷发版来响应所有用户对功能和稳定性的更高追求,欢迎大家在使用过程中给予我们更多反馈。

2024-03-11 18:53:48 2530 1

原创 众安保险 CDP 平台:借助 Apache Doris 打破数据孤岛,人群圈选提速4倍

在架构 1.0 中采用了复杂的技术组合,以实现标签、客群以及 OneID 的计算。这一架构组件众多,导致数据处理链路冗长、造成数据孤岛,且有着较高的管理和维护成本。通过引入 Apache Doris ,替换了 Spark + Impala + Hbase + Nebula,成功实现存储与计算的统一,简化了数据处理的流程,不仅降低了系统的复杂性,更提升了数据处理的效率,满足了更丰富的数据处理需求。随着业务的发展,实时营销场景对实时性的要求日益提升。

2024-03-04 11:11:31 770

原创 Apache Doris 2.0.5 版本正式发布

版本已于 2024 年 2 月 27 日正式与大家见面。这次更新带来一系列行为变更和功能更新,并进行了若干的改进与优化,旨在为用户提供更为稳定高效的数据查询与分析体验。新版本已经上线,欢迎大家下载体验!亲爱的社区小伙伴们,

2024-02-28 18:17:18 603

原创 分析型数据库(Apache Doris)分析性能的速度到底有多快?

在当今数据驱动的时代,企业对数据分析和洞察的需求日益增长。传统的关系型数据库在处理大规模数据时,往往面临性能瓶颈,比如存储大、处理速度慢、数据分析模型固定灵活性较低、运维成本高等,而分析型数据库(Apache Doris)以其卓越的性能和高效的数据处理能力,正在改变这一现状,SelectDB 作为基于 Apache Doris 构建的现代化数据仓库, 支持大规模实时数据上的极速查询分析。

2024-02-23 09:27:55 827

原创 从 Elasticsearch 到 Apache Doris,统一日志检索与报表分析,360 企业安全浏览器的数据架构升级实践

将日志检索和报表分析统一到一个系统中,Doris 2.0 版本在增加倒排索引后,能同时满足这两个场景,从而缩短了数据处理的链路和复杂度,显著提高了数据处理的效率。聚合分析性能得到数量级的提升,之前在 Elasticseach 中需要近 10 秒才能完成聚合查询,而在 Doris 中不到 1 秒就能完成,聚合分析效率至少提升 100%。Doris 提供了高效的数据压缩效率,相较于 Elasticseach,同一份数据的存储资源成本降低了 60%。

2024-02-22 19:15:30 5534 1

原创 分析型数据库(Apache Doris)是如何实现高效的数据更新?

SelectDB 是基于 Apache Doris (分析型数据库)构建的现代化数据仓库,支持大规模实时数据上的极速查询分析,主要用于 OLAP 场景下对大规模数据进行快速分析和查询,它支持多维分析、实时查询、增量更新、高效的数据更新等功能。在实现高效的数据更新方面,SelectDB 是怎么做到的呢,目前采用了哪几种技术手段:

2024-02-22 18:42:05 729

Apache Doris 用户案例集

过去的一年势必是 Apache Doris 在发展历程中有着浓墨重彩的一年,凭借对技术创新的执着与用户体验的追求,Apache Doris 已俘获全球范围内超过 2000 家企业的认可,拥有了极为广泛的用户规模、在企业实时数据分析的多种场景中得到广泛应用,并在广大社区用户和开发者的支持下,一举成为全球数据库和大数据领域最为活跃的开源项目之一。 为了帮助更多人更好地使用 Apache Doris ,我们从过去一年间 Apache Doris 在互联网、金融、物流、零售等众多行业的用户应用实践中,精心挑选出更具代表性和更具启发意义的最佳实践,并收录在《Apache Doris 用户案例集》中。 20+ 万字技术干货,赋能企业构建高性能实时数据仓库,欢迎大家下载阅读!

2023-06-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除