[建议收藏] Mysql+ETLCloud CDC+Doris实时数仓同步实战

一、业务需求及其痛点

随着数字化转型,企业需要对各种销售及营销数据进行实时同步分析,例如销售订单信息,库存信息,会员信息,设备状态信息等等,这些统计分析信息可以实时同步到 Doris中进行分析和统计,Doris作为分析型数据库特别适合于对海量数据的存储和分析,我们只需要把MySQL的表单数据实时同步到Doris即可以实现实时数据分析能力。

二、Apache Doris介绍

Apache Doris 是一个现代化的 MPP 分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。

Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。可以使数据分析工作更加简单高效!

三、MySQL CDC实时同步工具选型

目前能免费使用的成熟CDC工具且同时支持MySQL+Doris的有Flink CDC和ETLCloud CDC等,这里我们主要考虑比较流行的Flink CDC和ETLCloud CDC,CDC的同步原理其实不同平台的原理都是一样的,都是读取数据库log然后通过清洗、转换或计算后存入目标仓库中

Flink CDC安装和使用难度比较大,没有可视化的CDC配置和监控界面对于不熟的用户安装相对比较麻烦,对于实时数据的加工和处理还需要写代码,没一点技术的用户根据搞不定,对于数据工程师来说难度太大

ETLCloud CDC安装和使用相对容易基本上半小时就安装上了,安装完成后提供全WEB配置界面,对于用户可以说是非常友好,我们这里选择ETLCloud CDC来实现实时数仓的构建

四、怎么提升写入Doris的性能?

Doris兼容MySQL协议但是直接用jdbc写入doris的速度是非常慢基本不可用,所以必须要采用Doris提供的Stream load方式来进行数据的载入才能提升速度

ETLCloud CDC提供了专门针对Doris的高性能输出组件,还支持自动创建表结构同时支持批量加载技术

五、数据写入Doris之前如何直接转换为宽表?

通常情况下我们使用CDC实时监听表销售或订单表数据的LOG时会形成流式的数据,CDC每次传入的数据有可能是一条也可能是多条,监听到的流式数据都是订单表的单条数据,但在业务上单表的数据在业务价值上可能缺少一些关键的维度业务数据字段,例如要计算毛利合并客户及产品数据等。

为了补充这些缺少的数据字段之前的做法是先让他入库,然后再用SQL语句或者ETL流程再给他变换一次形成我们需要的宽表数据,虽然这样也可以实现这个业务需求但是失去了数据处理的时效性,即本来是实时流的数据但是到了业务那里变成不是实时的了,因为我们中间有一个定时变换的数据过程。

通过ETLCloud的ETL功能可以轻松实现实时数据直接变为宽表数据存入到Doris中

(单表实时流合并其他维度数据直接输出宽表数据到Doris中)

六、ETLCloud CDC同步原理

ETLCloud CDC的功能之所有比其他CDC工具都强大是因为他把CDC和ETL流程给链接起来了,CDC实时数据流入ETL流程中,再通过ETL流程对实时数据进行处理和输出。

七、ETLCloud CDC中配置MySQL表的监听

MySQL先要开启bing log功能,开启方式可以查看MySQL的binlog打开方法

开启动我们进入到ETLCloud的实时数据集成页面中配置一下即可

新增一个mysql cdc监听器

选择要监听mysql的表,这里我们选择监听country表

目标我们选择传给ETL的流程,ETL的流程会把数据写入到Doris中

在离线集成中我们新建一个Doris输出的ETL流程

离线ETL流程很简单,只需要拉入一个Doris的输出组件即可

选中Doris数据源和Doris的数据库表,数据源在ETLCloud中已经提前建好

导入Doris表中的所有字段

这样CDC+ETL就完成了mysql=>doris的实时同步任务的创建

八、启动MySQL CDC监听器

进入ETLCloud的实时数据集成功能点击启动CDC监听器即可

启动成功显示为绿色,如果出错可以查看tomcat log看是什么原因引起的

表示监听器已经启动成功

九、先清空Doris中已有表中的数据

Doris中先把country表清空,这样我们好观测当mysql中有数据变动时可以实时同步到doris中

十、开始实时同步数据

在mysql右我们country表中的数据如下

我们可以随意修改其中几条数据,可以看到数据会立即同步到Doris中

我们在mysql中实时修改了3条数据,可以看到doris中已经立即有3条数据同步过来

同时我们也可以去观察ETL的离线流程是不是被CDC给调用了

可以看到我们修改了3条数据,这个ETL流程被调用了3次,通过这个ETL流程把数据写入到了doris中

十一、Doris中自动建表

ETLCloud还具备在Doris中自动建表功能,如果我们要一次性把MySql的1000张表全部同步到Doris中,就可以使用批量同步功能,可以一次性把MySQL的1000张表自动在Doris中创建并全部同步数据到Doris中,这个也是Flink CDC所不具备的功能。

这们就可以把业务数据一次性全部拉入到Doris数仓中

Doris自动建表能力

十二、ETLCloud介绍


ETLCloud是一款零代码ETL工具,可以快速对接上百种数据源和应用系统,无需编码即可快速完成数据同步和传输,企业IT人员只需简单几步即可快速完成各种数据抽取同步并配合BI工具实现数据的统计分析。

 (ETLCloud可视化流程同步界面)

ETLCloud社区版本永久免费下载使用  ETLCloud数据集成社区
 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
课程总体架构请观看89讲。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库的应用有:1.数据分析数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库有两个环节:数据仓库的构建与数据仓库的应用。随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据大了几个量级,对ETL过程、存储都提出了更高的要求。互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如大促过程中库存管理,运营管理等(即既有中远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据仓库的需求可以抽象成两方面: 实时产生结果、处理和保存大量异构数据。本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战数仓设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数仓,数据来及分析,实时报表应用。具体数仓报表应用指标包括:实时大屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够学到大数据企业级实时数据仓库的实战经验。本课程包含的技术: 开发工具为:IDEA、WebStorm Flink 1.11.3Hadoop 2.7.5Hive 2.2.0ZookeeperKafka 2.1.0、Spring boot 2.0.8.RELEASESpring Cloud Finchley.SR2Flume 、Hbase 2.2.6DorisDB 0.13.9、RedisVUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav等课程亮点: 1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink最新版4.真正的实时数仓以及分层设计5.海量数据大屏实时报表6.数据分析涵盖全端(PC、移动、小程序)应用7.主流微服务后端系统8.数据库实时同步解决方案9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav10.集成SpringCloud实现统一整合方案11.互联网大数据企业热门技术栈12.支持海量数据的实时数仓报表分析13.支持全端实时实时数仓报表分析14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
实战Flink Doris实时数仓是指利用Flink作为实时计算引擎,将数据实时计算结果写入到Doris中,构建具有实时数据处理和分析能力的数据仓库。 首先,Doris是一款开源的分布式 SQL 数据库,具有高可靠性、低延迟、高扩展性等特点。通过Doris,我们可以构建和管理多维度的数据集合,支撑实时分析和查询。 而Flink是一个流式计算引擎,具有低延迟、高吞吐、Exactly Once等特点。它可以实时处理和计算大规模的数据流,并将计算结果输出到不同的数据存储,如Doris实战Flink Doris实时数仓的步骤如下: 1. 数据接入:通过Flink的流式数据接入功能,将数据源接入到Flink中。数据源可以是Kafka、消息队列等。 2. 实时计算:使用Flink提供的实时计算功能,对接入的数据进行处理和计算。Flink提供了丰富的函数库,可以进行数据转换、数据筛选、聚合、窗口计算等操作。 3. 数据写入:将实时计算的结果写入到Doris中。可以通过Doris提供的JDBC或者API接口,将计算结果写入到Doris的数据表中。 4. 数据查询和分析:通过Doris提供的SQL接口,可以对实时计算结果进行查询和分析。Doris支持复杂的查询语句和聚合操作,可以快速地进行多维度数据分析。 5. 数据展示和可视化:通过可视化工具,将Doris中的数据进行可视化展示,以便业务人员进行数据分析和决策。 实战Flink Doris实时数仓的优势在于实现了实时数据的处理和分析,可以快速地响应业务需求。同时,Flink的低延迟和高吞吐能力,以及Doris的高可靠性和扩展性,可以支撑大规模数据的实时处理和存储。通过构建实时数仓,企业可以更好地利用数据,追踪业务动态,并进行实时决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值