离线数仓之业务数据采集

离线数仓笔记(二)

业务数据采集

电商业务简介

电商业务的流程

电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。

当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据

订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。

电商的主要业务流程包括用户前台浏览商品时的商品详情的管理,用户商品加入购物车进行支付时用户个人中心&支付服务的管理**,用户支付完成后订单后台服务的管理,这些流程涉及到了**十几个甚至几十个业务数据表,甚至更多。

image-20230116112202232

电商常识
  • SKU

产品统一编号的简称,每种产品均对应有唯一的SKU号。

  • SPU

商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。

image-20230116112505582

SPU表示一类商品。同一SPU的商品可以共用商品图片、海报、销售属性等。

MySQL安装

安装步骤看:https://blog.csdn.net/m0_52820789/article/details/128702926?spm=1001.2014.3001.5502

业务数据采集

业务数据采集通道

image-20230116125449434

采集工具Maxwell安装

安装过程参照:https://blog.csdn.net/m0_52820789/article/details/128703555?spm=1001.2014.3001.5502

采集通道Maxwell配置
  1. 修改Maxwell配置文件config.properties
[atguigu@hadoop102 maxwell]$ vim /opt/module/maxwell/config.properties
  1. 配置参数如下
log_level=info

producer=kafka
kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092

#kafka topic配置
kafka_topic=topic_db

# mysql login info
host=hadoop102
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai

image-20230116140213487

  1. 重新启动Maxwell
[atguigu@hadoop102 bin]$ mxw.sh restart
  1. 通道测试

(1)启动Zookeeper以及Kafka集群

image-20230116140451007

(2)启动一个Kafka Console Consumer,消费topic_db数据

[atguigu@hadoop103 kafka]$ bin/kafka-console-consumer.sh --bootstrap-server hadoop102:9092 --topic topic_db

image-20230116140714112

(3)生成模拟数据

[atguigu@hadoop102 bin]$ cd /opt/module/db_log/
[atguigu@hadoop102 db_log]$ java -jar gmall2020-mock-db-2021-11-14.jar 

(4)观察Kafka消费者是否能消费到数据

image-20230116140848822

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值