自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 Apache Doris 动态分区介绍及使用方法

​1. 介绍在某些使用场景下,用户会将表按照天进行分区划分,每天定时执行例行任务,这时需要使用方手动管理分区,否则可能由于使用方没有创建分区导致数据导入失败,这给使用方带来了额外的维护成本。通过动态分区功能,用户可以在建表时设定动态分区的规则。FE 会启动一个后台线程,根据用户指定的规则创建或删除分区。用户也可以在运行时对现有规则进行变更动态分区是在 Doris 0.12 版本中引入的新功能。旨在对表级别的分区实现生命周期管理(TTL),减少用户的使用负担。目前实现了动态添加分区及动态删除分区的功

2021-09-28 14:15:21 2876

原创 Flink 使用 SQL 读取 Kafka 写入到Doris表中

这次我们演示的是整合Flink Doris Connector 到 Flink 里使用,通过Flink Kafka Connector,通过SQL的方式流式实时消费Kafka数据,利用Doris Flink Connector将数据插入到Doris表中。这里的演示我们是用过Flink SQL Client来进行的,1. 准备条件这里我们使用的环境是Doris-0.14.7 doris-flink-1.0-SNAPSHOT.jar,这个可以自己去编译 Flink-1.12.5 flink

2021-09-26 17:53:26 2391

原创 Apache Doris Routine Load数据导入使用方法

1.概要Routine load 功能为用户提供了一种自动从指定数据源进行数据导入的功能。Routine Load 是支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入的数据。Routine load是一种同步的数据导入方式。Routine load 支持导入的数据类型: 文本 和 JSON两种格式2. 原理image-20210926092117050.pngFE 通过

2021-09-26 14:36:29 2073

原创 Apache Doris Stream load 数据导入方式

1.概要Stream load 是一个同步的导入方式,用户通过发送 HTTP 协议发送请求将本地文件或数据流导入到 Doris 中。Stream load 同步执行导入并返回导入结果。用户可直接通过请求的返回体判断本次导入是否成功。Stream load 主要适用于导入本地文件,或通过程序导入数据流中的数据。Broker load 支持文件类型:文本和JSON两个格式的数据2. 原理Stream Load请求FE和BE两种方式,连接FE或者直接连接BE方式Stream load

2021-09-24 17:11:03 2913

原创 Apache Doris Broker数据导入

1.概要Broker load 是一个异步的导入方式,支持的数据源取决于 Broker 进程支持的数据源。用户需要通过 MySQL 协议 创建 Broker load 导入,并通过查看导入命令检查导入结果主要适用于以下场景: 外部数据源(如 HDFS等)读取数据,导入到Doris中。 数据量在 几十到百GB 级别。 主要用于数据迁移,或者定时批量导入 Broker load 支持文件类型:PARQUET、ORC、CSV格式2. 原理用户在提交导入任务后,FE

2021-09-23 11:29:27 1242

原创 Apache Doris 数据导入总览

1.导入总览介绍Apache Doris 的数据导入功能是提供用户将数据导入到 Doris 中,导入成功之后,用户可以通过 Mysql 客户端使用SQL对数据进行查询分析。Doris 为满足不同场景的数据数据导入需求,提供了一下几种数据导入方式,每种数据导入方式都支持不同的数据源,存在不同的使用方式:同步,异步,每种导入方式也支持不同的数据格式:CSV,JSON,Parquet、ORC等1.1 Broker Load方式这种方式需要安装一个 Doris Broker服务,具体参照 Apach

2021-09-23 11:24:03 492

原创 Apache Doris 升级手册

Apache Doris 可以通过滚动升级的方式,平滑进行升级。升级顺序是先升级BE,再升级FE,不能颠倒升级顺序。Doris保证BE向后兼容FE。升级的过程可以分为:测试 Doris BE 升级的正确性, 测试 Doris FE 元数据兼容, 滚动升级 观察升级后的集群服务注:1.为了保证在集群升级过程中,Doris服务是可用的,建议Doris集群 在高可用部署的情况下进行。即数据 3 副本,FE 高可用情况下。2.Doris 不支持跨两位版本升级,比如你现在使用的是0.12.x版本,

2021-09-18 15:25:37 872

原创 正式成Apache Doris 项目Committer

非常感谢Aache Doris社区的信任和肯定,邀请我成为Aache Doris项目的Committer,这是肯定,也是荣誉,更是责任。特别感谢社区明雨带我进入开源社区,感谢缪翎,政国,昊鹏等在使用过程中给我的帮助,从一开始我在遇到问题寻找解决方案,到发现Doris,接触到Doris团队,给我的印象这是一个非常靠谱的团队,真的非常Nice,后来在明雨的指导和帮助下进入社区,提PR,帮助社区完善文档,解答社区小伙伴的问题,分享我们使用的方式方法,在使用也遇到了一些问题,这里真的特别感谢百度Doris核心.

2021-09-18 11:50:24 391 5

原创 基于Apache doris怎么构建数据中台(八)-数仓管理

数仓分层模型数仓分层模型的好处:1、数据结构化更清晰:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。2、数据血缘追踪:提供给外界使用的是一张业务表,但是这张业务表可能来源很多张表。如果有一张来源表出问题了,我们可以快速准确的定位到问题,并清楚每张表的作用范围。3、增强数据复用能力:减少重复开发,通过数据分层规范化,开发一些通用的中间层数据,能够减少重复计算,提高单张业务表的使用率,提升系统的执行效率。4、简化复杂的问题:把一个复杂的业务分成多个步骤实现,每一层只

2021-09-17 09:31:48 772 1

原创 Apache Doris 环境安装部署

这里以百度的Doris发行版 Palo-0.14.13版本为例进行演示编译安装部署1. Doris编译1.1 docker 镜像下载这里我们使用的最新镜像Apache doris 0.14.0及百度发布的Palo-0.14.7及之前的版本都是要在Docker 1.2版本下编译,之后的在Docker 1.3.1下编译1.3.1 版本 Docker 镜像下载$ docker pull apache/incubator-doris:build-env-1.3.11.2 版本Docke

2021-09-16 17:32:47 1712 2

原创 Apache Doris ODBC mysql外表注意事项

前面一篇文章介绍了Apache doris ODBC外表使用方式,这里要说的是在使用Mysql的ODBC外表的时候要注意事项:mysql数据库及表的字符集一定要是用UTF8,不要使用UTF8mb4,目前doris ODBC外表只支持UTF8编码 在doris BE节点配置conf/odbcinst.ini,这里配置[MySQL Driver]Description = ODBC for MySQLDriver = /usr/lib/libmyodbc8w.soFil

2021-09-14 12:53:12 1001

原创 如何构建公司的数据指标体系

概述在数据化管理中,数据指标是业务中的核心内容,然而指标管理中总会出现许多问题。指标管理系统在一定程度上可以帮助实现规范化管理,但是针对不同的业务场景与需求,数据管理还应当灵活应变,在实际的业务中我们需要的并不是数据,而是数据背后映射的业务洞察.在业务发展过程中,会产生大量的数据,单看数据是没有价值的,只有和业务相结合转化为信息,再经过处理才能体现起价值.对于业务数据而言,通常分为两项:其一是维度,其二是度量,或者说是指标,这两项构成了我们数据分析的基础.对于结构化数据,可以理解为一个数据多维.

2021-09-14 09:19:34 631

原创 基于Apache doris的元数据管理系统

这里我们要先搞懂什么是元数据?元数据和数据的区别是什么?元数据有什么作用1.什么是元数据举几个例子:如果一本书是一个“数据",那么它的书名、封面、出版社、作者、总页码就是它的“元数据”。 如果数据库中某个表是一个”数据”,那么它的列名、列类型、列长度、表注释就是它的"元数据"。元数据用来描述数据的数据,通过描述数据的产生、存储、使用情况、业务含义等信息,以及数据管理人员相关信息。让人们能够清楚拥有什么数据、代表什么、源自何处、如何在系统中移动,以及哪些人可以使用源数据,如何使用2.元数据

2021-09-14 09:18:50 1317 1

原创 基于Apache doris怎么构建数据中台(七)-数据指标管理

指标体系定义指标体系是将零散单点的具有相互联系的指标,系统化的组织起来,通过单点看全局,通过全局解决单点的问题。它主要由指标和体系两部分组成。指标是指将业务单元细分后量化的度量值,它使得业务目标可描述、可度量、可拆解,它是业务和数据的结合,是统计的基础,也是量化效果的重要依据。指标主要分为结果型和过程型:结果型指标用于衡量用户发生某个动作后所产生的结果,通常是延后知道的,很难进行干预。结果型指标更多的是监控数据异常,或者是监控某个场景下用户需求是否被满足 过程型指标用户在做某个动作时候..

2021-09-14 09:18:13 855

原创 基于Apache doris怎么构建数据中台(六)-数据服务管理

数据服务标准:数据结构标准化、在线查询实时化、数据开发可视化。数据结构标准化针对数据交互,我们需要提供统一的接口视图,可进行数据的查询、权限管控。在线查询实时化针对各业务的调用,我们需要提供指标级数据口径统一的实时数据结果。数据开发可视化提供数据接口的可视化统一管理页面,开发人员通过通过可视化管理API,降低接口理解的难度,易于维护数据服务化数据服务提供快速将数据表生成数据 API 的能力,通过应用授权,供外部应用系统调用 API 获取数据,且对 API 进行统一管理和发布,

2021-09-14 09:16:52 485 3

原创 基于Apache doris怎么构建数据中台(五)-数据质量

上一次我们讲了,数据怎么进行快速的接入,这次我们讲在接入及后续的数据处理中质量怎么控制如何更加合理、高效的监控每类作业的运行状态,并将原本分散、孤岛式的监控日志信息通过规则引擎集中共享、关联、处理;洞察关键信息,形成事前预判、事中监控、事后跟踪的质量管理闭环流程;沉淀故障问题,搭建解决方案的知识库体系。在数据质量监管平台的规划建设中,面临如下挑战:缺乏统一监控视图,离线和实时作业监控分散,影响性、关联性不足。 数据质量的衡量标准缺失,数据校验滞后,数据口径不统一。 问题故障处理流程未闭环,点式解

2021-09-14 09:15:13 534

原创 基于Apache doris怎么构建数据中台(四)-数据接入系统

上一次我们讲解了数据资产,元数据管理,血缘关系等,这次我们开始将数据接入,怎么实现快速的数据接入在开发数据模型时,我们必须有一个统一的平台,能够像流水线一样,把数据一步步加工成数据模型。这其中涉及到数据萃取、数据聚合、作业调度等。主要是为了实现业务数据的快速接入,零代码实现,数据分析人员只需要通过UI进行简单的配置、提交任务即可完成数据的接入,并能实现对数据接入任务的管理及监控。Mysql数据源数据接入主要是为了完成针对Mysql数据的业务系统数据接入零代码实现,不需要开发人员接入,

2021-09-14 09:14:04 847

原创 基于Apache doris怎么构建数据中台(三)-数据资产管理

前面我们讲了什么是数据中台,及数据中台的架构及功能规划,这次我们开始从数据资产开始拆解每个功能模块做的内容数据资产管理平台可以定量评估数据资产的成本,价值,质量。帮助企业优化存储成本,节约计算资源。精细化的数据生命周期管理,帮助企业更好的管理数据的生产到销毁的整个生命周期。在管理方面:管理者在规划数据文化建设时,对企业数据资产的全局构成、使用形式、 使用效果都需要详细的指标输入,往往这些指标都没有被统筹起来;在组织保障上, 需要多少资源、运作机制应该如何制定才能保障数据文化的落地,也需要运营指标来

2021-09-14 09:13:23 782 1

原创 基于Apache doris怎么构建数据中台(二)-数据中台建设内容

这次主要是将基于Doris的数据中台建设内容及系统架构设计围绕着上次将的我们要解决的五个问题:找数,理解数据,问题评估,取数及数据可视化,给出一个概要的设计及框架数据中台建设内容数据规范统一:采用维度事实建模理论进行严格的,规范化、标准化的定义,保障数据质量,避免数据指标的二义性。 一站式研发体验:从数据接入、建模、研发、运维、数据查找及探查等过程提供高效一站式统一的研发立案率。 系统化构建数据体系:以标准的技术框架,系统地构建规范可读的业务化数据体系,形成数据资产,方便业务查找及应用。

2021-09-14 09:12:43 575

原创 基于Apache doris怎么构建数据中台(一)-什么是数据中台

这是数据中台系列的第一篇文章,主要阐述数据中台概念,从技术和业务视觉看数据中台及数据中台要解决的问题1.什么是数据中台数据是从业务系统产生的,而业务系统也需要数据分析的结果,那么是否可以把业务系统的数据存储和计算能力抽离,由单独的数据处理平台提供存储和计算能力?这样不仅可以简化业务系统的复杂性,还可以让各个系统采用更合适的技术,专注做本身擅长的事。这个专用的数据处理平台即数据中台。数据中台是一个用技术连接大数据计算存储能力,用业务连接数据应用场景能力的平台。“连接能力”是数据中台的精髓。作为

2021-09-14 09:11:23 514

原创 Apache doris Datax DorisWriter扩展使用方法

DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apac...

2021-09-06 08:55:28 1696 1

Eclipse RCP入门

Eclipse RCP入门Eclipse RCP入门Eclipse RCP入门Eclipse RCP入门

2009-12-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除