东软跨境电商数仓项目架构
文章目录
在技术选型完成之后,接下来我们小组的任务是对该项目的架构进行设计,我们要明确数据从哪里来,到哪里去,以及该如何使用当前的技术来处理数据。因此,我们按照数据的流向进行了架构的设计。
1.数据产生分析
东软跨境电商项目中产生的数据来源共有两大类,分别是业务交换数据和埋点收集的用户行为数据。其中业务交互数据是业务流程中产生的登录、订单、用户、商品、支付等相关的数据,通常存储在数据库当中;而埋点用户行为数据是用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、以及收藏等,具体产生的逻辑如下图所示:
当数据产生时,通过Nginx分别发送到对应的业务服务器和日志服务器上,其中业务数据存入到了业务服务器的Mysql当中,而日志数据存到了日志服务器的本地磁盘当中。
2.数据采集通道设计
数据的采集我们可以通过上面的分析看出来,我们需要对业务数据库当中的数据采集,也需要对日志文件数据进行采集,而这两种数据采集的方式显然是不相同的,我们针对的这两种数据分别设计采集的方式。
2.1 Mysql业务数据采集
该部分采集的方式由我们需要同步的数据以及同步的方式所决定。因为我们数据同步的方式会有部分使用增量同步,部分使用全量同步。因此&#