3.东软跨境电商数仓项目架构设计

本文详细介绍了东软跨境电商数仓项目的架构设计,包括数据产生分析、数据采集通道设计、数仓搭建、数据可视化、即席查询、元数据管理和整体架构。数据源分为业务数据和用户行为数据,通过DataX、Maxwell、Flume和Kafka进行采集和同步,利用Hive on Spark构建数仓,DolphinScheduler进行作业调度,数据报表借助可视化工具,元数据管理使用Atlas。
摘要由CSDN通过智能技术生成

东软跨境电商数仓项目架构


在技术选型完成之后,接下来我们小组的任务是对该项目的架构进行设计,我们要明确数据从哪里来,到哪里去,以及该如何使用当前的技术来处理数据。因此,我们按照数据的流向进行了架构的设计。

1.数据产生分析

东软跨境电商项目中产生的数据来源共有两大类,分别是业务交换数据和埋点收集的用户行为数据。其中业务交互数据是业务流程中产生的登录、订单、用户、商品、支付等相关的数据,通常存储在数据库当中;而埋点用户行为数据是用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、以及收藏等,具体产生的逻辑如下图所示:
在这里插入图片描述

当数据产生时,通过Nginx分别发送到对应的业务服务器和日志服务器上,其中业务数据存入到了业务服务器的Mysql当中,而日志数据存到了日志服务器的本地磁盘当中。

2.数据采集通道设计

数据的采集我们可以通过上面的分析看出来,我们需要对业务数据库当中的数据采集,也需要对日志文件数据进行采集,而这两种数据采集的方式显然是不相同的,我们针对的这两种数据分别设计采集的方式。

2.1 Mysql业务数据采集

该部分采集的方式由我们需要同步的数据以及同步的方式所决定。因为我们数据同步的方式会有部分使用增量同步,部分使用全量同步。因此&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值