客快物流大数据项目(四十)：ETL实现方案

最新推荐文章于 2024-05-07 07:21:04 发布

okbin1991

最新推荐文章于 2024-05-07 07:21:04 发布

阅读量390

点赞数 5

文章标签：大数据 etl 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/okbin1991/article/details/137282174

版权

本文讨论了如何通过ETL流程将大规模数据从事务型数据库迁移到Kudu，以提升实时分析性能。Kudu因其对实时性和变更性的支持，在电商等高实时性需求场景中得到广泛应用，如快速同步MySQLBinlog并实现实时查询。

摘要由CSDN通过智能技术生成

目录

ETL实现方案

一、ETL处理流程图

二、为什么使用Kudu作为存储介质

ETL实现方案

一、ETL处理流程图

数据来源：

来自于ogg同步到kafka的物流运输数据
来自于canal同步到kafka的客户关系数据

二、为什么使用Kudu作为存储介质

数据库数据上的快速分析

目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析，把数据写入数据库，然后使用 SQL 进行有效信息提取，当数据规模很小的时候，这种方式确实是立竿见影的，但是当数据量级起来以后，会发现数据库吃不消了或者成本开销太大了，此时就需要把数据从事务型数据库里拷贝出来或者说剥离出来，装入一个分析型的数据库里。发现对于实时性和变更性的需求，目前只有 Kudu 一种组件能够满足需求，所以就产生了这样的一种场景：

MySQL 数据库增、删、改的数据通过 Binlog 实时的被同步到 Kudu 里，同时在 Impala(或者其他计算引擎如 Spark、Hive、Presto、MapReduce)上可以实时的看到。这种场景也是目前业界使用最广泛的，认可度最高。

用户行为日志的快速分析

对于用户行为日志的实时性敏感的业务，比如电商流量、AB 测试、优惠券的点击反馈、广告投放效果以及秒级导入秒级查询等需求，按 Kudu 出现以前的架构基本上都是这张图的模式：

不仅链路长而且实时性得不到有力保障，有些甚至是 T + 1 的，极大的削弱了业务的丰富度。引入 Kudu 以后，大家看，数据的导入和查询都是在线实时的：

这种场景目前也是网易考拉和hub在使用的，其中hub甚至把 Kudu 当 HBase 来作点查使用。

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
客快物流大数据项目(四十)：ETL实现方案

目录ETL实现方案一、ETL处理流程图二、为什么使用Kudu作为存储介质ETL实现方案一、ETL处理流程图数据来源：来自于ogg同步到kafka的物流运输数据来自于canal同步到kafka的客户关系数据二、为什么使用Kudu作为存储介质数据库数据上的快速分析目前很多业务使用事务型数据库(MySQL、Oracle)做数据分析，把数据写入数据库...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。